Mathematische Grundlagen

1. Markov-Ketten – Theorie

Eine Markov-Kette ist ein stochastischer Prozess mit der fundamentalen Eigenschaft, dass die Wahrscheinlichkeit des nächsten Zustands nur vom aktuellen Zustand abhängt – nicht von der gesamten Vergangenheit. Diese Eigenschaft wird als Markov-Eigenschaft (Gedächtnislosigkeit) bezeichnet.

🔑 Markov-Eigenschaft (Memorylessness)

P(X_t+1 = s_j | X_t = s_i, X_t-1 = s_k, ...) = P(X_t+1 = s_j | X_t = s_i)

Die Wahrscheinlichkeit des nächsten Zustands hängt ausschließlich vom gegenwärtigen Zustand ab, unabhängig davon wie dieser erreicht wurde.

1.1 Formale Definition

Eine Markov-Kette wird definiert durch das Tupel (S, P, π₀):

S = {s₁, s₂, ..., sₙ} – Endliche Menge von Zuständen
P ∈ ℝⁿˣⁿ – Übergangsmatrix mit Einträgen p_ij
π₀ – Anfangsverteilung über die Zustände

Die Übergangsmatrix P ist eine stochastische Matrix, bei der jede Zeile eine Wahrscheinlichkeitsverteilung darstellt:

P = [p_ij], wobei:

p_ij = P(X_t+1 = s_j | X_t = s_i) ≥ 0

Σ_j=1ⁿ p_ij = 1 // Jede Zeile summiert sich zu 1

1.2 Chapman-Kolmogorow-Gleichung

Die Wahrscheinlichkeit, in k Schritten von Zustand i nach Zustand j zu gelangen, ergibt sich durch Matrixpotenzierung:

P(X_t+k = s_j | X_t = s_i) = [P^k]_ij

// Die k-Schritt-Übergangsmatrix ist die k-te Potenz von P

Beispiel: Wenn die Aktie heute „steigend" ist, wie wahrscheinlich ist sie in 5 Tagen „stark fallend"? → Die Antwort findet sich im Eintrag [Steigend, Stark fallend] der Matrix P⁵.

2. Zustandsdiskretisierung

Aktienkurse sind kontinuierliche Werte. Um eine Markov-Kette anwenden zu können, müssen wir den kontinuierlichen Kursraum in diskrete Zustände überführen. Wir verwenden die tägliche prozentuale Veränderung als Grundlage:

r_t = (P_t - P_t-1) / P_t-1 × 100%

wobei P_t = Schlusskurs am Tag t

2.1 Zustandsabbildung

Die kontinuierliche Rendite r_t wird durch eine Stufenfunktion σ: ℝ → S auf einen diskreten Zustand abgebildet:

σ(r) = {
  s₁ (Stark fallend)   falls r < τ₁
  s₂ (Fallend)        falls τ₁ ≤ r < τ₂
  s₃ (Neutral)        falls τ₂ ≤ r < τ₃
  s₄ (Steigend)       falls τ₃ ≤ r < τ₄
  s₅ (Stark steigend) falls r ≥ τ₄
}

⚙️ Konfigurierbare Schwellenwerte

Die Schwellenwerte τ₁, τ₂, τ₃, τ₄ sind in Wurstketten frei einstellbar. Standard: τ₁ = -2%, τ₂ = -0.5%, τ₃ = 0.5%, τ₄ = 2%. Die Wahl der Schwellenwerte beeinflusst die Granularität und Sensitivität des Modells erheblich. Engere Grenzen erzeugen mehr „neutrale" Tage, weitere Grenzen mehr Extremzustände.

3. Schätzung der Übergangsmatrix

3.1 Maximum-Likelihood-Schätzer (ungewichtet)

Die einfachste Methode zur Schätzung der Übergangswahrscheinlichkeiten ist der Maximum-Likelihood-Schätzer (MLE). Für jeden Übergang von Zustand i nach j zählen wir die beobachteten Übergänge und normalisieren:

p̂_ij = n_ij / Σ_k=1^|S| n_ik

wobei n_ij = Anzahl der beobachteten Übergänge von s_i nach s_j

Beispiel: In 500 Handelstagen beobachten wir 80 Übergänge ausgehend von „Steigend". Davon gehen 28 nach „Steigend", 24 nach „Neutral", 15 nach „Stark steigend", 10 nach „Fallend", 3 nach „Stark fallend".

→ p̂(Steigend → Steigend) = 28/80 = 35.0%
→ p̂(Steigend → Neutral) = 24/80 = 30.0%
→ p̂(Steigend → Stark steigend) = 15/80 = 18.75%

3.2 Gewichteter Maximum-Likelihood-Schätzer

Die ungewichtete Schätzung behandelt alle historischen Übergänge gleich. In der Realität sind neuere Daten oft relevanter als ältere. Wir erweitern den MLE um ein Gewichtungssystem:

p̂_ij^(w) = Σ_{t: (s_t=i, s_t+1=j)} w_t / Σ_{t: s_t=i} w_t

wobei w_t = Gewicht des Übergangs zum Zeitpunkt t

3.2.1 Recency-Gewichtung (Exponential Decay)

Neuere Tage werden exponentiell stärker gewichtet. Die Intuition: Aktuelle Marktbedingungen (Zinssätze, Volatilität, Sentiment) sind relevanter als die Bedingungen vor 2 Jahren.

w_recency(t) = e^{λ · (t / T)}

t = Index des Datenpunkts (0 = ältester, T-1 = neuester)
λ = Stärke der Gewichtung (Standard: 2.0)

// Bei λ=2: Der neueste Tag hat e² ≈ 7.4× mehr Gewicht als der älteste
// Bei λ=5: Der neueste Tag hat e⁵ ≈ 148× mehr Gewicht als der älteste

📊 Warum exponentiell?

Lineare Gewichtung (w = t/T) lässt alten Daten immer noch erheblichen Einfluss. Exponentielles Decay ermöglicht einen deutlicheren Fokus auf aktuelle Trends, was besonders bei Regime-Wechseln (z.B. von Bull- zu Bear-Markt) wichtig ist. Der Parameter λ gibt dem Nutzer Kontrolle über den Trade-off zwischen Aktualität und statistischer Robustheit.

3.2.2 Earnings-Gewichtung (Post-Earnings-Drift)

Der Post-Earnings Announcement Drift (PEAD) ist ein in der Finanzforschung gut dokumentiertes Phänomen: Aktien tendieren dazu, nach positiven Quartalszahlen weiter zu steigen und nach negativen weiter zu fallen – oft über Wochen hinweg.

Wurstketten erkennt potenzielle Earnings-Events durch eine Heuristik basierend auf Volumen und Kursausschlag:

isEarnings(t) = (V_t > 2 · V̄) ∧ (|r_t| > 1.8 · |r̄|)

V_t = Handelsvolumen am Tag t
V̄ = Durchschnittliches Volumen
r̄ = Durchschnittliche absolute Tagesänderung

Für erkannte Earnings-Tage und die folgenden Tage wird ein erhöhtes Gewicht angewandt:

w_earnings(t + d) = μ · e^-0.4d für d = 0, 1, ..., D

μ = Earnings-Multiplikator (Standard: 2.5)
d = Tage nach dem Earnings-Event
D = Post-Earnings-Fenster (Standard: 5 Tage)

// Tag 0 (Earnings): Gewicht = 2.5
// Tag 1: Gewicht ≈ 1.68
// Tag 5: Gewicht ≈ 0.34

3.2.3 Anomalie-Gewichtung (Übergangslose Zustände)

In der Marktpraxis gibt es Situationen von extremen Kurssprüngen (sog. Black Swan Events oder „übergangslose" Zustände), die stark aus dem normalen Muster fallen. Diese können durch ein Black-Scholes-Modell mit Jump-Diffusion (z.B. nach Merton) beschrieben werden. In unserem diskreten Markov-Modell adressieren wir dies durch eine Anomalie-Gewichtung, die seltene Extremereignisse gezielt hervorhebt.

isAnomaly(t) = |r_t - r̄| > c · σ

r_t = Tägliche Rendite
r̄ = Mittlere Rendite
σ = Standardabweichung der Renditen
c = Sensitivitäts-Parameter (Standard: 2.0)

w_anomaly(t) = 5.0 falls isAnomaly(t)
w_anomaly(t) = 1.0 sonst

Diese Gewichtung bewirkt, dass die Folgezustände nach einem extremen Kurssprung in der Übergangsmatrix eine um den Faktor 5 höhere Gewichtung erhalten.

3.2.4 Gewichtskombination

Wenn mehrere Gewichtungen aktiv sind, werden sie multiplikativ kombiniert und anschließend normalisiert:

w_combined(t) = w_recency(t) · w_earnings(t) · w_anomaly(t)

// Normalisierung: w̃(t) = w(t) · N / Σw(t)
// Sicherstellt dass das durchschnittliche Gewicht = 1 ist

4. Vorhersage-Methoden

4.1 Verzweigungs-Szenarien (Deterministic Branching)

Wurstketten zeigt Verzweigungsszenarien: „Was passiert, wenn der Kurs morgen steigt/fällt/neutral bleibt?" Für jede mögliche Anfangsbewegung wird der wahrscheinlichste Pfad (most likely path) durch die Markov-Kette berechnet:

Gegeben: aktueller Zustand s_current, Anfangszustand s_start

s*_t+1 = argmax_j p_{s*_t, j}

// In jedem Schritt wird der wahrscheinlichste Folgezustand gewählt
// Dies erzeugt den „greedy" / deterministischen Pfad

Der vorhergesagte Kurs ergibt sich durch Anwendung der zustandsspezifischen Durchschnittsrendite r̄_s:

P̂_t+1 = P̂_t · (1 + r̄_{s*_t+1} / 100)

wobei r̄_s = gewichteter Durchschnitt der beobachteten Renditen im Zustand s

4.2 Monte-Carlo-Simulation

Im Gegensatz zur deterministischen Verzweigung berücksichtigt die Monte-Carlo-Simulation diestochastische Natur der Markov-Kette. Über N Simulationsläufe (Standard: 500) werden zufällige Pfade generiert:

Für jeden Lauf r = 1, ..., N:
  1. Ziehe u ~ Uniform(0, 1)
  2. Wähle s_t+1 so dass Σ_k=1^s_t+1 p_{s_t,k} ≥ u
  3. Berechne P̂_t+1 = P̂_t · (1 + r̄_{s_t+1} / 100)
  4. Wiederhole für alle Vorhersagetage

// Inverse CDF Sampling: Die kumulative Verteilung bestimmt den nächsten Zustand

Aus den N simulierten Pfaden werden Perzentile berechnet, die ein Konfidenzintervall bilden:

Für jeden Vorhersagetag d:
  Sortiere alle simulierten Preise: P̂_d⁽¹⁾ ≤ P̂_d⁽²⁾ ≤ ... ≤ P̂_d^(N)

  10. Perzentil = P̂_d^{(⌊0.1·N⌋)}
  50. Perzentil = P̂_d^{(⌊0.5·N⌋)} // Median
  90. Perzentil = P̂_d^{(⌊0.9·N⌋)}

// Das 10.-90. Perzentil bildet ein 80% Konfidenzintervall

🎲 Warum Monte Carlo?

Die deterministische Verzweigung zeigt den einzelnen wahrscheinlichsten Pfad. Monte-Carlo-Simulation zeigt die Streuung der möglichen Ergebnisse. Zusammen geben sie ein vollständigeres Bild: Die Verzweigungen zeigen die Richtung, das Konfidenzband die Unsicherheit.

5. Stationarität & Modellgrenzen

5.1 Stationaritätsannahme

Markov-Ketten nehmen an, dass die Übergangswahrscheinlichkeiten zeitlich konstant sind (Homogenität). In der Realität ändern sich Marktbedingungen jedoch ständig. Die Recency-Gewichtung adressiert dieses Problem teilweise, indem sie aktuellen Bedingungen mehr Einfluss gibt.

5.2 Ergodizität und stationäre Verteilung

Wenn die Markov-Kette irreduzibel (jeder Zustand erreichbar) und aperiodisch ist, konvergiert sie gegen eine stationäre Verteilung π*:

lim_k→∞ P^k = 1 · π*^T

π* · P = π* // Der Eigenvektor zum Eigenwert 1
Σ_i π*_i = 1

Für Aktien bedeutet dies: Über lange Vorhersagezeiträume konvergiert das Modell gegen die historische Zustandsverteilung, unabhängig vom Startzustand. Kurzfristige Vorhersagen (5-14 Tage) sind daher informativer als langfristige.

5.3 Bekannte Limitationen

Markov-Eigenschaft: Reale Aktienkurse haben Langzeitabhängigkeiten (Trends, Momentum), die das Modell nicht vollständig erfasst
Exogene Faktoren: Nachrichten, Zinsentscheidungen, geopolitische Ereignisse sind nicht modelliert
Zustandsdiskretisierung: Informationsverlust durch Quantisierung der kontinuierlichen Renditen
Stichprobengröße: Seltene Übergänge (z.B. von „Stark steigend" nach „Stark fallend") können unterrepräsentiert sein
Keine Volatilitäts-Cluster: GARCH-artige Volatilitätsdynamiken werden nicht erfasst

⚠️ Wichtig: Markov-Ketten sind ein Werkzeug zur statistischen Analyse, keine Kristallkugel. Die Qualität der Vorhersage hängt stark von der Stationarität des zugrunde liegenden Prozesses ab. Für Anlageentscheidungen sollten stets mehrere Analysemethoden kombiniert werden.