Per rispondere alla tua domanda: puoi usare la densità di levigatura. Ma non devi. La risposta di Jarle Tufto ha la decomposizione che stai usando. Ma ce ne sono altri.
Utilizzando le ricorsioni di Kalman
Qui stai valutando la probabilità come
f(y1,…,yn)=f(y1)∏i=2nf(yi|y1,…,yi−1).
Tuttavia, le medie e le varianze non definiscono sempre completamente le distribuzioni di probabilità in generale. Quella che segue è la decomposizione che stai usando per passare dalle distribuzioni di filtro alle probabilità condizionali :f(xi−1|y1,…,yi−1)f(yi|y1,…,yi−1)
f(yi|y1,…,yi−1)=∬f(yi|xi)f(xi|xi−1)f(xi−1|y1,…,yi−1)dxidxi−1.(1)
Qui è la densità di transizione dello stato ... parte del modello, e è la densità di osservazione ... di nuovo parte del modello. Nella tua domanda scrivi questi come rispettivamente e . È la stessa cosa.f(xi|xi−1)f(yi|xi)xt+1=Fxt+vt+1yt=Hxt+Azt+wt
Quando si ottiene un passo avanti nella distribuzione della previsione dello stato, si sta calcolando . Quando ti integri di nuovo, ottieni (1) completamente. Scrivi quella densità completamente nella tua domanda, ed è la stessa cosa.∫f(xi|xi−1)f(xi−1|y1,…,yi−1)dxi−1
Qui stai usando solo decomposizioni di distribuzioni di probabilità e ipotesi sul modello. Questo calcolo della probabilità è un calcolo esatto. Non c'è niente di discrezionale che puoi usare per farlo meglio o peggio.
Utilizzando l'algoritmo EM
Per quanto ne sappia, non esiste altro modo per valutare la probabilità direttamente in questo tipo di modello spaziale statale. Tuttavia, è ancora possibile eseguire la stima della massima verosimiglianza valutando una funzione diversa: è possibile utilizzare l'algoritmo EM. Nel passaggio Aspettativa (E-Step) si calcolerebbe
Qui
∫f(x1,…,xn|y1,…yn)logf(y1,…,yn,x1,…,xn)dx1:n=Esmooth[logf(y1,…,yn,x1,…,xn)].
f(y1,…,yn,x1,…,xn)è la probabilità di "dati completi" e stai aspettando il log di quello rispetto alla densità di smoothing articolare. Quello che succede spesso è che, poiché stai prendendo il registro di questa completa verosimiglianza dei dati, i termini si dividono in somme e, a causa della linearità dell'operatore delle aspettative, stai prendendo in considerazione le aspettative rispetto alle distribuzioni di smoothing marginale (quelle citi nella tua domanda).
Altre cose
Ho letto in alcuni punti che l'EM è un modo "più stabile" per massimizzare la probabilità, ma non ho mai visto questo punto discusso bene, né ho visto affatto definita questa parola "stabile", ma ho anche non l'ho davvero esaminato ulteriormente. Nessuno di questi algoritmi aggira la prova dei massimi locali / globali. Personalmente tendo a usare il Kalman più spesso solo per abitudine.
È vero che le stime uniformi dello stato hanno una varianza minore in genere rispetto al filtraggio, quindi immagino che tu abbia ragione ad avere qualche intuizione su questo, ma non stai davvero usando gli stati. La probabilità che stai cercando di massimizzare non è una funzione degli stati.