← Zurück zur Analyse

📐 Mathematische Grundlagen

Wie Wurstketten Markov-Ketten für die Aktienvorhersage einsetzt

1. Markov-Ketten – Theorie

Eine Markov-Kette ist ein stochastischer Prozess mit der fundamentalen Eigenschaft, dass die Wahrscheinlichkeit des nächsten Zustands nur vom aktuellen Zustand abhängt – nicht von der gesamten Vergangenheit. Diese Eigenschaft wird als Markov-Eigenschaft (Gedächtnislosigkeit) bezeichnet.

🔑 Markov-Eigenschaft (Memorylessness)
P(Xt+1 = sj | Xt = si, Xt-1 = sk, ...) = P(Xt+1 = sj | Xt = si)

Die Wahrscheinlichkeit des nächsten Zustands hängt ausschließlich vom gegenwärtigen Zustand ab, unabhängig davon wie dieser erreicht wurde.

1.1 Formale Definition

Eine Markov-Kette wird definiert durch das Tupel (S, P, π₀):

Die Übergangsmatrix P ist eine stochastische Matrix, bei der jede Zeile eine Wahrscheinlichkeitsverteilung darstellt:

P = [pij], wobei:

pij = P(Xt+1 = sj | Xt = si) ≥ 0

Σj=1n pij = 1   // Jede Zeile summiert sich zu 1

1.2 Chapman-Kolmogorow-Gleichung

Die Wahrscheinlichkeit, in k Schritten von Zustand i nach Zustand j zu gelangen, ergibt sich durch Matrixpotenzierung:

P(Xt+k = sj | Xt = si) = [Pk]ij

// Die k-Schritt-Übergangsmatrix ist die k-te Potenz von P
Beispiel: Wenn die Aktie heute „steigend" ist, wie wahrscheinlich ist sie in 5 Tagen „stark fallend"? → Die Antwort findet sich im Eintrag [Steigend, Stark fallend] der Matrix P⁵.

2. Zustandsdiskretisierung

Aktienkurse sind kontinuierliche Werte. Um eine Markov-Kette anwenden zu können, müssen wir den kontinuierlichen Kursraum in diskrete Zustände überführen. Wir verwenden die tägliche prozentuale Veränderung als Grundlage:

rt = (Pt - Pt-1) / Pt-1 × 100%

wobei Pt = Schlusskurs am Tag t

2.1 Zustandsabbildung

Die kontinuierliche Rendite rt wird durch eine Stufenfunktion σ: ℝ → S auf einen diskreten Zustand abgebildet:

σ(r) = {
  s₁  (Stark fallend)   falls r < τ₁
  s₂  (Fallend)        falls τ₁ ≤ r < τ₂
  s₃  (Neutral)        falls τ₂ ≤ r < τ₃
  s₄  (Steigend)       falls τ₃ ≤ r < τ₄
  s₅  (Stark steigend)  falls r ≥ τ₄
}
⚙️ Konfigurierbare Schwellenwerte
Die Schwellenwerte τ₁, τ₂, τ₃, τ₄ sind in Wurstketten frei einstellbar. Standard: τ₁ = -2%, τ₂ = -0.5%, τ₃ = 0.5%, τ₄ = 2%. Die Wahl der Schwellenwerte beeinflusst die Granularität und Sensitivität des Modells erheblich. Engere Grenzen erzeugen mehr „neutrale" Tage, weitere Grenzen mehr Extremzustände.

3. Schätzung der Übergangsmatrix

3.1 Maximum-Likelihood-Schätzer (ungewichtet)

Die einfachste Methode zur Schätzung der Übergangswahrscheinlichkeiten ist der Maximum-Likelihood-Schätzer (MLE). Für jeden Übergang von Zustand i nach j zählen wir die beobachteten Übergänge und normalisieren:

ij = nij / Σk=1|S| nik

wobei nij = Anzahl der beobachteten Übergänge von si nach sj
Beispiel: In 500 Handelstagen beobachten wir 80 Übergänge ausgehend von „Steigend". Davon gehen 28 nach „Steigend", 24 nach „Neutral", 15 nach „Stark steigend", 10 nach „Fallend", 3 nach „Stark fallend".

→ p̂(Steigend → Steigend) = 28/80 = 35.0%
→ p̂(Steigend → Neutral) = 24/80 = 30.0%
→ p̂(Steigend → Stark steigend) = 15/80 = 18.75%

3.2 Gewichteter Maximum-Likelihood-Schätzer

Die ungewichtete Schätzung behandelt alle historischen Übergänge gleich. In der Realität sind neuere Daten oft relevanter als ältere. Wir erweitern den MLE um ein Gewichtungssystem:

ij(w) = Σt: (st=i, st+1=j) wt  /  Σt: st=i wt

wobei wt = Gewicht des Übergangs zum Zeitpunkt t

3.2.1 Recency-Gewichtung (Exponential Decay)

Neuere Tage werden exponentiell stärker gewichtet. Die Intuition: Aktuelle Marktbedingungen (Zinssätze, Volatilität, Sentiment) sind relevanter als die Bedingungen vor 2 Jahren.

wrecency(t) = eλ · (t / T)

t = Index des Datenpunkts (0 = ältester, T-1 = neuester)
λ = Stärke der Gewichtung (Standard: 2.0)

// Bei λ=2: Der neueste Tag hat e² ≈ 7.4× mehr Gewicht als der älteste
// Bei λ=5: Der neueste Tag hat e⁵ ≈ 148× mehr Gewicht als der älteste
📊 Warum exponentiell?
Lineare Gewichtung (w = t/T) lässt alten Daten immer noch erheblichen Einfluss. Exponentielles Decay ermöglicht einen deutlicheren Fokus auf aktuelle Trends, was besonders bei Regime-Wechseln (z.B. von Bull- zu Bear-Markt) wichtig ist. Der Parameter λ gibt dem Nutzer Kontrolle über den Trade-off zwischen Aktualität und statistischer Robustheit.

3.2.2 Earnings-Gewichtung (Post-Earnings-Drift)

Der Post-Earnings Announcement Drift (PEAD) ist ein in der Finanzforschung gut dokumentiertes Phänomen: Aktien tendieren dazu, nach positiven Quartalszahlen weiter zu steigen und nach negativen weiter zu fallen – oft über Wochen hinweg.

Wurstketten erkennt potenzielle Earnings-Events durch eine Heuristik basierend auf Volumen und Kursausschlag:

isEarnings(t) = (Vt > 2 · V̄) ∧ (|rt| > 1.8 · |r̄|)

Vt = Handelsvolumen am Tag t
V̄ = Durchschnittliches Volumen
r̄ = Durchschnittliche absolute Tagesänderung

Für erkannte Earnings-Tage und die folgenden Tage wird ein erhöhtes Gewicht angewandt:

wearnings(t + d) = μ · e-0.4d    für d = 0, 1, ..., D

μ = Earnings-Multiplikator (Standard: 2.5)
d = Tage nach dem Earnings-Event
D = Post-Earnings-Fenster (Standard: 5 Tage)

// Tag 0 (Earnings): Gewicht = 2.5
// Tag 1: Gewicht ≈ 1.68
// Tag 5: Gewicht ≈ 0.34

3.2.3 Anomalie-Gewichtung (Übergangslose Zustände)

In der Marktpraxis gibt es Situationen von extremen Kurssprüngen (sog. Black Swan Events oder „übergangslose" Zustände), die stark aus dem normalen Muster fallen. Diese können durch ein Black-Scholes-Modell mit Jump-Diffusion (z.B. nach Merton) beschrieben werden. In unserem diskreten Markov-Modell adressieren wir dies durch eine Anomalie-Gewichtung, die seltene Extremereignisse gezielt hervorhebt.

isAnomaly(t) = |rt - r̄| > c · σ

rt = Tägliche Rendite
r̄ = Mittlere Rendite
σ = Standardabweichung der Renditen
c = Sensitivitäts-Parameter (Standard: 2.0)

wanomaly(t) = 5.0   falls isAnomaly(t)
wanomaly(t) = 1.0   sonst

Diese Gewichtung bewirkt, dass die Folgezustände nach einem extremen Kurssprung in der Übergangsmatrix eine um den Faktor 5 höhere Gewichtung erhalten.

3.2.4 Gewichtskombination

Wenn mehrere Gewichtungen aktiv sind, werden sie multiplikativ kombiniert und anschließend normalisiert:

wcombined(t) = wrecency(t) · wearnings(t) · wanomaly(t)

// Normalisierung: w̃(t) = w(t) · N / Σw(t)
// Sicherstellt dass das durchschnittliche Gewicht = 1 ist

4. Vorhersage-Methoden

4.1 Verzweigungs-Szenarien (Deterministic Branching)

Wurstketten zeigt Verzweigungsszenarien: „Was passiert, wenn der Kurs morgen steigt/fällt/neutral bleibt?" Für jede mögliche Anfangsbewegung wird der wahrscheinlichste Pfad (most likely path) durch die Markov-Kette berechnet:

Gegeben: aktueller Zustand scurrent, Anfangszustand sstart

s*t+1 = argmaxj ps*t, j

// In jedem Schritt wird der wahrscheinlichste Folgezustand gewählt
// Dies erzeugt den „greedy" / deterministischen Pfad

Der vorhergesagte Kurs ergibt sich durch Anwendung der zustandsspezifischen Durchschnittsrendites:

t+1 = P̂t · (1 + r̄s*t+1 / 100)

wobei r̄s = gewichteter Durchschnitt der beobachteten Renditen im Zustand s

4.2 Monte-Carlo-Simulation

Im Gegensatz zur deterministischen Verzweigung berücksichtigt die Monte-Carlo-Simulation diestochastische Natur der Markov-Kette. Über N Simulationsläufe (Standard: 500) werden zufällige Pfade generiert:

Für jeden Lauf r = 1, ..., N:
  1. Ziehe u ~ Uniform(0, 1)
  2. Wähle st+1 so dass Σk=1st+1 pst,k ≥ u
  3. Berechne P̂t+1 = P̂t · (1 + r̄st+1 / 100)
  4. Wiederhole für alle Vorhersagetage

// Inverse CDF Sampling: Die kumulative Verteilung bestimmt den nächsten Zustand

Aus den N simulierten Pfaden werden Perzentile berechnet, die ein Konfidenzintervall bilden:

Für jeden Vorhersagetag d:
  Sortiere alle simulierten Preise: P̂d(1) ≤ P̂d(2) ≤ ... ≤ P̂d(N)

  10. Perzentil = P̂d(⌊0.1·N⌋)
  50. Perzentil = P̂d(⌊0.5·N⌋)   // Median
  90. Perzentil = P̂d(⌊0.9·N⌋)

// Das 10.-90. Perzentil bildet ein 80% Konfidenzintervall
🎲 Warum Monte Carlo?
Die deterministische Verzweigung zeigt den einzelnen wahrscheinlichsten Pfad. Monte-Carlo-Simulation zeigt die Streuung der möglichen Ergebnisse. Zusammen geben sie ein vollständigeres Bild: Die Verzweigungen zeigen die Richtung, das Konfidenzband die Unsicherheit.

5. Stationarität & Modellgrenzen

5.1 Stationaritätsannahme

Markov-Ketten nehmen an, dass die Übergangswahrscheinlichkeiten zeitlich konstant sind (Homogenität). In der Realität ändern sich Marktbedingungen jedoch ständig. Die Recency-Gewichtung adressiert dieses Problem teilweise, indem sie aktuellen Bedingungen mehr Einfluss gibt.

5.2 Ergodizität und stationäre Verteilung

Wenn die Markov-Kette irreduzibel (jeder Zustand erreichbar) und aperiodisch ist, konvergiert sie gegen eine stationäre Verteilung π*:

limk→∞ Pk = 1 · π*T

π* · P = π*   // Der Eigenvektor zum Eigenwert 1
Σi π*i = 1

Für Aktien bedeutet dies: Über lange Vorhersagezeiträume konvergiert das Modell gegen die historische Zustandsverteilung, unabhängig vom Startzustand. Kurzfristige Vorhersagen (5-14 Tage) sind daher informativer als langfristige.

5.3 Bekannte Limitationen

⚠️ Wichtig: Markov-Ketten sind ein Werkzeug zur statistischen Analyse, keine Kristallkugel. Die Qualität der Vorhersage hängt stark von der Stationarität des zugrunde liegenden Prozesses ab. Für Anlageentscheidungen sollten stets mehrere Analysemethoden kombiniert werden.