Perché la probabilità nel filtro Kalman viene calcolata utilizzando i risultati del filtro anziché i risultati più fluidi?

11

Sto usando il filtro Kalman in un modo molto standard. Il sistema è rappresentato dall'equazione di stato e dall'equazione di osservazione . $x_{t+1}=Fx_{t}+v_{t+1}$ $y_{t}=Hx_{t}+Az_{t}+w_{t}$

I libri di testo insegnano che dopo aver applicato il filtro Kalman e aver ottenuto le "previsioni a un passo" (o "stima filtrata"), dovremmo usarli per calcolare la funzione di verosimiglianza: $\hat{x}_{t|t-1}$

$f_{y_{t}|\mathcal{I}_{t-1},z_{t}}\left(y_{t}|\mathcal{I}_{t-1},z_{t}\right)=\det\left[2\pi\left(HP_{t|t-1}H^{\prime}+R\right)\right]^{-\frac{1}{2}}\exp\left\{ -\frac{1}{2}\left(y_{t}-H\hat{x}_{t|t-1}-Az_{t}\right)^{\prime}\left(HP_{t|t-1}H^{\prime}+R\right)^{-1}\left(y_{t}-H\hat{x}_{t|t-1}-Az_{t}\right)\right\}$

La mia domanda è: perché la funzione di verosimiglianza viene calcolata utilizzando la "stima filtrata" $\hat{x}_{t|t-1}$ e non la "stima lisciata" $\hat{x}_{t|T}$ ? Non è $\hat{x}_{t|T}$ una migliore stima del vettore di stato?

likelihood kalman-filter

— Gustavo Amarante
fonte

Ho modificato il titolo per essere più informativo.

— Juho Kokkala,

5

Per rispondere alla tua domanda: puoi usare la densità di levigatura. Ma non devi. La risposta di Jarle Tufto ha la decomposizione che stai usando. Ma ce ne sono altri.

Utilizzando le ricorsioni di Kalman

Qui stai valutando la probabilità come

f (y_{1}, \dots, y_{n}) = f (y_{1}) \prod_{i = 2}^{n} f (y_{i} | y_{1}, \dots, y_{i - 1}) .

$f(y_1, \ldots, y_n) = f(y_1)\prod_{i=2}^nf(y_i|y_1, \ldots, y_{i-1}).$

Tuttavia, le medie e le varianze non definiscono sempre completamente le distribuzioni di probabilità in generale. Quella che segue è la decomposizione che stai usando per passare dalle distribuzioni di filtro alle probabilità condizionali : $f(x_{i-1}|y_1,\ldots,y_{i-1})$ $f(y_i|y_1,\ldots,y_{i-1})$

\begin{matrix} (1) & f (y_{i} | y_{1}, \dots, y_{i - 1}) = \iint f (y_{i} | x_{i}) f (x_{i} | x_{i - 1}) f (x_{i - 1} | y_{1}, \dots, y_{i - 1}) d x_{i} d x_{i - 1} . \end{matrix}

$f(y_i|y_1, \ldots, y_{i-1}) = \iint f(y_i|x_i)f(x_i|x_{i-1})f(x_{i-1}|y_1, \ldots, y_{i-1})dx_{i} dx_{i-1} \tag{1}.$

Qui è la densità di transizione dello stato ... parte del modello, e è la densità di osservazione ... di nuovo parte del modello. Nella tua domanda scrivi questi come rispettivamente e . È la stessa cosa. $f(x_i|x_{i-1})$ $f(y_i|x_i)$ $x_{t+1}=Fx_{t}+v_{t+1}$ $y_{t}=Hx_{t}+Az_{t}+w_{t}$

Quando si ottiene un passo avanti nella distribuzione della previsione dello stato, si sta calcolando . Quando ti integri di nuovo, ottieni (1) completamente. Scrivi quella densità completamente nella tua domanda, ed è la stessa cosa. $\int f(x_i|x_{i-1})f(x_{i-1}|y_1, \ldots, y_{i-1}) dx_{i-1}$

Qui stai usando solo decomposizioni di distribuzioni di probabilità e ipotesi sul modello. Questo calcolo della probabilità è un calcolo esatto. Non c'è niente di discrezionale che puoi usare per farlo meglio o peggio.

Utilizzando l'algoritmo EM

Per quanto ne sappia, non esiste altro modo per valutare la probabilità direttamente in questo tipo di modello spaziale statale. Tuttavia, è ancora possibile eseguire la stima della massima verosimiglianza valutando una funzione diversa: è possibile utilizzare l'algoritmo EM. Nel passaggio Aspettativa (E-Step) si calcolerebbe Qui

\int f (x_{1}, \dots, x_{n} | y_{1}, \dots y_{n}) \log f (y_{1}, \dots, y_{n}, x_{1}, \dots, x_{n}) d x_{1 : n} = E_{s m o o t h} [\log f (y_{1}, \dots, y_{n}, x_{1}, \dots, x_{n})] .

$\int f(x_1, \ldots, x_n|y_1,\ldots y_n) \log f(y_1,\ldots,y_n,x_1, \ldots,x_n) dx_{1:n} = E_{smooth}[\log f(y_1,\ldots,y_n,x_1, \ldots,x_n)].$

f (y_{1}, \dots, y_{n}, x_{1}, \dots, x_{n})

$f(y_1,\ldots,y_n,x_1, \ldots,x_n)$ è la probabilità di "dati completi" e stai aspettando il log di quello rispetto alla densità di smoothing articolare. Quello che succede spesso è che, poiché stai prendendo il registro di questa completa verosimiglianza dei dati, i termini si dividono in somme e, a causa della linearità dell'operatore delle aspettative, stai prendendo in considerazione le aspettative rispetto alle distribuzioni di smoothing marginale (quelle citi nella tua domanda).

Altre cose

Ho letto in alcuni punti che l'EM è un modo "più stabile" per massimizzare la probabilità, ma non ho mai visto questo punto discusso bene, né ho visto affatto definita questa parola "stabile", ma ho anche non l'ho davvero esaminato ulteriormente. Nessuno di questi algoritmi aggira la prova dei massimi locali / globali. Personalmente tendo a usare il Kalman più spesso solo per abitudine.

È vero che le stime uniformi dello stato hanno una varianza minore in genere rispetto al filtraggio, quindi immagino che tu abbia ragione ad avere qualche intuizione su questo, ma non stai davvero usando gli stati. La probabilità che stai cercando di massimizzare non è una funzione degli stati.

— Taylor
fonte

Quanto sono diversi KF ed EM? Finiscono per fare la stessa cosa in modi vagamente simili.

— Mitch,

1

@Mitch è probabilmente qualcosa che merita più di un commento. Dipenderà dall'ottimizzatore per uso generale che usi con il KF e dal tipo di EM che usi. Non sarò troppo sicuro senza esaminarlo.

— Taylor,

7

In generale, secondo la regola del prodotto, la probabilità esatta può essere scritta Dal presupposto del modello dello spazio degli stati, ne consegue che il vettore di aspettativa e la matrice di varianza di ogni subordinata alle osservazioni passate possono essere espressi come e

f (y_{1}, \dots, y_{n}) = f (y_{1}) \prod_{i = 2}^{n} f (y_{i} | y_{1}, \dots, y_{i - 1}) .

$f(y_1,\dots,y_n)=f(y_1)\prod_{i=2}^n f(y_i|y_1,\dots,y_{i-1}).$

y_{i}

$y_i$

\begin{aligned} E (y_{i} | y_{1}, \dots, y_{i - 1}) & = E (H x_{t} + A z_{t} + w_{t} | y_{1}, \dots, y_{i - 1}) \\ = H E (x_{t} | y_{1}, \dots, y_{i - 1}) + A z_{t} + E w_{t} \\ = H {\hat{x}}_{t | t - 1} + A z_{t}, \end{aligned}

$\begin{align} E(y_i|y_1,\dots,y_{i-1}) &= E(Hx_{t}+Az_{t}+w_{t}|y_1,\dots,y_{i-1}) \\&= HE(x_{t}|y_1,\dots,y_{i-1})+Az_{t}+Ew_{t} \\&= H\hat x_{t|t-1}+Az_{t}, \end{align}$

\begin{aligned} V a r (y_{i} | y_{1}, \dots, y_{i - 1}) & = V a r (H x_{t} + A z_{t} + w_{t} | y_{1}, \dots, y_{i - 1}) \\ = H V a r (x_{t} | y_{1}, \dots, y_{i - 1}) H^{'} + V a r w_{t} \\ = H P_{t | t - 1} H^{'} + R . \end{aligned}

$\begin{align} \mathrm{Var}(y_i|y_1,\dots,y_{i-1}) &= \mathrm{Var}(Hx_{t}+Az_{t}+w_{t}|y_1,\dots,y_{i-1}) \\&= H\mathrm{Var}(x_{t}|y_1,\dots,y_{i-1})H'+ \mathrm{Var}w_t \\&= HP_{t|t-1}H'+R. \end{align}$ Quindi questo ti dà la probabilità esatta senza calcolare stime stimate.

Mentre ovviamente potresti usare le stime smussate che in effetti sono stime migliori degli stati sconosciuti, questo non ti darebbe la funzione di probabilità. In effetti si utilizzerà il valore osservato di per stimare il proprio valore atteso, quindi sembra probabile che ciò comporterebbe una distorsione nelle stime risultanti. $y_i$

— Jarle Tufto
fonte

0

Penso che una risposta migliore sul "perché" la distribuzione di smoothing non sia utilizzata (in genere) sia l'efficienza. È in linea di principio semplice calcolare la (marginale) probabilità marginale in un senso di esclusione come segue. Elimina l'osservazione j, esegui Kalman più agevolmente sui dati rimanenti. Quindi valuta la probabilità dell'invisibile y (j). Ripeti questo per tutti j. Riassumi le probabilità di log. Versioni più veloci di questo funzionano con blocchi (randomizzati) di campioni distribuiti (come k-fold CV). Si noti che questo schema richiede un'implementazione più generale del filtro Kalman / liscia, che può saltare arbitrariamente gli aggiornamenti delle misurazioni dove richiesto. Il passaggio indietro / levigatura non accede alle misure (algoritmo RTS comunque) e rimane lo stesso.

Se le serie temporali sono "abbastanza lunghe", è probabile che ciò avvenga con pochi benefici poiché la probabilità di filtraggio "brucia" il suo transitorio iniziale. Ma se il set di dati è breve, la probabilità di livellamento più costosa potrebbe valerne la pena. Una soluzione più uniforme potrebbe essere una soluzione intermedia.

— Threepwood
fonte