Inference Variaference, KL divergence richiede true


12

Per la mia (molto modesta) comprensione dell'inferenza variazionale, si cerca di approssimare una distribuzione sconosciuta trovando una distribuzione che ottimizzi quanto segue:pq

KL(p||q)=xp(x)logp(x)q(x)

Ogni volta che investo tempo nella comprensione dell'inferenza variazionale continuo a colpire questa formula e non posso fare a meno di sentire che mi manca il punto. Mi sembra di conoscere per calcolare KL (p || q) . Ma il punto era che non conoscevo questa distribuzione p .pKL(p||q)p

È questo punto esatto che mi ha infastidito ogni volta che provo a leggere qualcosa di variazionale. Cosa mi sto perdendo?

MODIFICA :

Aggiungerò alcuni commenti extra qui a seguito della risposta di @wij, cercherò di essere più preciso.

Nei casi che mi interessano, sembra davvero perfettamente ragionevole considerare che quanto segue vale;

p(θ|D)=p(D|θ)p(θ)p(D)p(D|θ)p(θ)

In questo caso potrei sapere che aspetto dovrebbe avere proporzionalmente p perché avrò fatto una scelta di modello per p(D|θ) e p(θ) . Sarei quindi corretto nel dire che allora dovrei scegliere una distribuzione familiare q [diciamo gaussiana] tale che ora posso stimare KL(p(θ|D)||q) . Sembra che in questo caso stia cercando di adattarmi a un gaussiano che è vicino al non normalizzato p(D|θ)p(θ) . È corretto?

In tal caso, mi sembra di presumere che il mio posteriore sia una distribuzione normale e cerco semplicemente di trovare valori probabili per questa distribuzione in merito alla divergenza di KL .

Risposte:


7

Ho la sensazione che tratti come un oggetto completamente sconosciuto. Non penso che sia così. Questo è probabilmente quello che ti sei perso.p

Supponiamo di osservare (iid) e vogliamo dedurre dove ipotizziamo che e per sono specificati dal modello. Secondo la regola di Bayes,Y={yi}i=1np(x|Y)p(y|x)p(x)xRd

p(x|Y)=p(x)p(Y)p(Y|x)=p(x)p(Y)i=1np(yi|x).

La prima osservazione è che sappiamo qualcosa sulla distribuzione posteriore . È dato come sopra. In genere, non conosciamo il suo normalizzatore . Se la probabilità è molto complicata, finiamo per avere una distribuzione complicata .p(x|Y)p(Y)p(y|x)p(x|Y)

La seconda cosa che rende possibile fare l'inferenza variazionale è che esiste un vincolo sulla forma che può assumere. Senza alcun vincolo, sarebbe che di solito è intrattabile. In genere, si presume che viva in un sottoinsieme scelto della famiglia esponenziale. Ad esempio, questa potrebbe essere la famiglia di distribuzioni gaussiane completamente fattorizzate, ad esempio . Si scopre che se questo è il tuo insieme di vincoli, allora ogni componente di è dato daqargminqKL(p||q)pqqQ={i=1dqi(xi)each qi is a one-dimensional Gaussian}q

qiexp(Ejiqjlogp(x,Y)),

doveLa formula esatta non ha molta importanza. Il punto è che la approssimativa può essere trovata basandosi sulla conoscenza della vera , e sull'assunto sulla forma che dovrebbe assumere la approssimativa .p(x,Y)=p(x)i=1np(yi|x).qpq

Aggiornare

Di seguito è necessario rispondere alla parte aggiornata nella domanda. Ho appena realizzato che stavo pensando a . Userò sempre per la quantità reale e per una quantità approssimativa. In inferenza variazionale o Bayes variazionale, è dato daKL(q||p(x|Y))pqq

q=argminqQKL(q||p(x|Y)).

Con il vincolo impostato come sopra, la soluzione è quella indicata in precedenza. Ora se stai pensandoQ

q=argminqQKL(p(x|Y)||q),

per definito come un sottoinsieme della famiglia esponenziale, allora questa inferenza si chiama propagazione delle aspettative (EP). La soluzione per in questo caso è quella tale che i suoi momenti corrispondano a quelli di .Qqp(x|Y)

Ad ogni modo, hai ragione nel dire che essenzialmente cerchi di approssimare la vera distribuzione posteriore nel senso KL con una distribuzione vincolata a prendere una forma.q


Non posso discutere con questo. Penso alla maggior parte delle spiegazioni, incluso il mio gloss su questo.
Peadar Coyle,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.