Limitazioni MCMC / EM? MCMC over EM?


9

Attualmente sto imparando i modelli gerarchici bayesiani usando JAGS da R, e anche pymc usando Python ( "Metodi bayesiani per hacker" ).

Da questo post posso trarre qualche intuizione : "finirai con un mucchio di numeri che sembrano" come se "tu fossi in qualche modo riuscito a prendere campioni indipendenti dalla complicata distribuzione che volevi conoscere". È qualcosa che posso dare la probabilità condizionale, quindi posso generare un processo senza memoria basato sulla probabilità condizionale. Quando generi il processo abbastanza a lungo, allora la probabilità congiunta può convergere e quindi posso prendere un mucchio di numeri alla fine della sequenza generata. È proprio come se prendo campioni indipendenti dalla complicata distribuzione articolare. Ad esempio, posso creare un istogramma e può approssimare la funzione di distribuzione.

Quindi il mio problema è, devo dimostrare se un MCMC converge per un determinato modello? Sono motivato a saperlo perché in precedenza ho imparato l'algoritmo EM per GMM e LDA (modelli grafici). Se posso semplicemente usare l'algoritmo MCMC senza provare se converge, allora può risparmiare molto più tempo di EM. Dal momento che dovrò calcolare la funzione di probabilità logaritmica prevista (dovrà calcolare la probabilità posteriore), quindi massimizzare la verosimiglianza logaritmica prevista. Apparentemente è più ingombrante dell'MCMC (ho solo bisogno di formulare la probabilità condizionale).

Mi chiedo anche se la funzione di verosimiglianza e la distribuzione precedente siano coniugate. Significa che l'MCMC deve convergere? Mi chiedo quali siano i limiti di MCMC e EM.


2
MCMC converge come per definizione. Invece di provarlo, diagnostica la convergenza per verificare se il tuo modello è convergente, ad esempio math.pku.edu.cn/teachers/xirb/Courses/QR2013/ReadingForFinal/… o people.fas.harvard.edu/~plam/teaching/methods / convergence /…n
Tim

3
EM è più veloce, non è bayesiano (non tutti amano le statistiche bayesiane) e in alcuni casi ha meno problemi di identificabilità (converge a un singolo valore massimo mentre con l'approccio MCMC hai un'intera distribuzione che potrebbe essere più complicata quindi stimare il punto ) ecc.
Tim

2
EM viene utilizzato per la massima probabilità o la massima stima a posteriori, ma inizialmente è stato descritto come algoritmo ML ed è comunemente usato nell'approccio ML (vedi en.wikipedia.org/wiki/… ).
Tim

1
Anche se usi EM per la stima MAP piuttosto che ML, per me non è bayesiano perché cerca di caratterizzare la distribuzione posteriore ma ne ottiene solo la modalità locale.
Luca

1
Per me usare EM non è bayesiano perché ti dà una stima puntuale dei tuoi parametri di interesse e non quantifica la distribuzione posteriore completa. Sia con EM che con MCMC si può avere un modello probabilistico completo con priori, variabili casuali latenti e osservate, ma l'inferenza è diversa. MCMC mira a caratterizzare l'intera distribuzione posteriore mentre EM fornisce non trasmette le informazioni della distribuzione posteriore completa. Per me un bayesiano è qualcuno che usa la distribuzione posteriore per il processo decisionale. Tuttavia, questo potrebbe essere semplicistico. Sto anche imparando queste cose.
Luca

Risposte:


13

EM è una tecnica di ottimizzazione: data la probabilità con utili variabili latenti, restituisce un massimo locale, che può essere un massimo globale a seconda del valore iniziale.

MCMC è un metodo di simulazione: data la probabilità con o senza variabili latenti e un precedente, produce un campione che è approssimativamente distribuito dalla distribuzione posteriore. I primi valori di quel campione di solito dipendono dal valore iniziale, il che significa che vengono spesso scartati come fase di burn-in (o warm-up).

Quando questo campione viene utilizzato per valutare gli integrali associati alla distribuzione posteriore [la stragrande maggioranza dei casi], le proprietà di convergenza sono essenzialmente le stesse di un'approssimazione iid di Monte Carlo, in virtù del teorema ergodico.

Se è necessario altro, ovvero una garanzia che è un campione dal posteriore , sono disponibili alcune tecniche di valutazione della convergenza, ad esempio nel pacchetto R CODA . Teoricamente, gli strumenti che assicurano la convergenza sono presumibilmente fuori dalla tua portata. Ad esempio, metodi di campionamento o rewewal perfetti .π ( x | D )(xt,,xt+T)π(x|D)

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.