Relazione tra Bayes variazionale ed EM


26

Ho letto da qualche parte che il metodo Variational Bayes è una generalizzazione dell'algoritmo EM. In effetti, le parti iterative degli algoritmi sono molto simili. Per verificare se l'algoritmo EM è una versione speciale dei Bayes variazionali, ho provato quanto segue:

  1. è dato, X è la raccolta di variabili latenti e Θ è i parametri. In Bayes variazionali possiamo fare un'approssimazione tale che P ( X , Θ | Y ) Q X ( X ) Q Θ ( Θ ) . Dove le Q sono distribuzioni più semplici e trattabili.YXΘP(X,Θ|Y)QX(X)QΘ(Θ)Q

  2. Poiché l'algoritmo EM trova una stima del punto MAP, ho pensato che Bayes variazionali possono convergere in EM se uso una funzione Delta tale che: . Θ 1 è la prima stima per i parametri come di solito eseguita in EM.QΘ1(Θ)=δΘ1(Θ)Θ1

  3. Quando viene dato , Q 1 X ( X ) che minimizza la divergenza KL si trova nella formula Q 1 X ( X ) = exp ( E δ Θ 1 [ ln P ( X , Y , Θ ) ] )QΘ1(Θ)=δΘ1(Θ)QX1(X) La formula sopra si semplifica aQ 1 X (X)=P(X|Θ1,Y), questo passaggio risulta essere il equivalente del passaggio Expectation dell'algoritmo EM!

    QX1(X)=exp(EδΘ1[lnP(X,Y,Θ)])exp(EδΘ1[lnP(X,Y,Θ)])dX
    QX1(X)=P(X|Θ1,Y)

Ma non posso derivare il passaggio di massimizzazione come continuazione di questo. Nel passaggio successivo dobbiamo calcolare e secondo la regola di iterazione di Bayes Variazionale questo è:QΘ2(Θ)

QΘ2(Θ)=exp(EP(X|Θ1,Y)[lnP(X,Y,Θ)])exp(EP(X|Θ1,Y)[lnP(X,Y,Θ)])dΘ

Gli algoritmi VB ed EM sono davvero collegati in questo modo? Come possiamo derivare EM come caso speciale delle Baye variazionali, il mio approccio è vero?


Dove hai letto che l'algoritmo EM trova una stima MAP? La relazione tra inferenza variazionale ed EM diventerà chiara una volta che avrai compreso la visione di EM presentata in questo articolo di Neal & Hinton (1998) . Vedi anche la mia risposta qui .
Lucas,

P(X|Θt,Y)ΘtΘt+1=un'rgmun'XΘ<lnP(X,Y,Θ)>P(X|Θt,Y)

1
QΘ2QΘ2Θ2QΘ2(Θ)=δΘ2(Θ)

Ho trovato nella pagina 21 della presentazione cs.cmu.edu/~tom/10-702/Zoubin-702.pdf è stato mostrato un confronto tra EM e VB, analogamente usando la funzione Dirac. Ma come VB si riduce a EM non è dato.
Ufuk Can Bicici,

Risposte:


20

ΘΘ*

QΘ(Θ)=δ(Θ-Θ*)
KL(Q||P)=QX(X)QΘ(Θ)lnQX(X)QΘ(Θ)P(X,Y,Θ)dXdΘ=QX(X)lnQX(X)QΘ(Θ*)P(X,Y,Θ*)dX
QX(X)Θ*

Naturalmente, se si dovesse effettivamente valutare la divergenza di KL, sarebbe infinita. Ma questo non è un problema se si considera che la funzione delta è un limite.


Tecnicamente, massimizzando EQX[lnP(X,Y,Θ*)]=EQX[lnP(X,Y|Θ*)]+lnP(Θ*)Θ*P(Θ*)
Yibo Yang,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.