Il documento che ho trovato chiarendo in merito alla massimizzazione delle aspettative è K-Mezzi bayesiani come un algoritmo di "Massimizzazione-Aspettativa" (pdf) di Welling e Kurihara.
Supponiamo di avere un modello probabilistico con x osservazioni, z variabili casuali nascoste e un totale di θ parametri. Ci viene dato un set di dati D e siamo costretti (da potenze superiori) a stabilire p ( z , θ | D ) .p(x,z,θ)xzθDp(z,θ|D)
1. Campionamento di Gibbs
Possiamo approssimare campionando. Il campionamento di Gibbs fornisce p ( z , θ | D ) alternando:p(z,θ|D)p(z,θ|D)
θ∼p(θ|z,D)z∼p(z|θ,D)
2. Bayes variazionali
Invece, possiamo provare a stabilire una distribuzione e q ( z ) e ridurre al minimo la differenza con la distribuzione che siamo dopo p ( θ , z | D ) . La differenza tra le distribuzioni ha un comodo nome di fantasia, la divergenza KL. Per ridurre a icona K L [ q ( θ ) q ( z ) | | p ( θ , z | D ) ] aggiorniamo:q(θ)q(z)p(θ,z|D)KL[q(θ)q(z)||p(θ,z|D)]
q(θ)∝exp(E[logp(θ,z,D)]q(z))q(z)∝exp(E[logp(θ,z,D)]q(θ))
3. Massimizzazione delle aspettative
Trovare distribuzioni di probabilità a tutti gli effetti sia per che θ potrebbe essere considerato estremo. Perché non consideriamo invece una stima puntuale per uno di questi e manteniamo l'altro bello e sfumato. In EM il parametro θ viene stabilito come indegno di una distribuzione completa e impostato sul suo valore MAP (Massimo A Posteriore), θ ∗ .zθθθ∗
θ∗=argmaxθE[logp(θ,z,D)]q(z)q(z)=p(z|θ∗,D)
Qui sarebbe in realtà essere una notazione meglio: l'operatore argmax può restituire più valori. Ma non pignoli. Rispetto ai Bayes variazionali vedi che la correzione per il log di exp non cambia il risultato, quindi non è più necessario.θ∗∈argmaxlogexp
4. Massimizzazione-Aspettativa
Non c'è motivo di trattare come un bambino viziato. Possiamo anche usare le stime dei punti z ∗ per le nostre variabili nascoste e dare ai parametri θ il lusso di una distribuzione completa.zz∗θ
z∗=argmaxzE[logp(θ,z,D)]q(θ)q(θ)=p(θ|z∗,D)
Se le nostre variabili nascoste sono variabili indicatrici, abbiamo improvvisamente un metodo computazionalmente economico per eseguire inferenze sul numero di cluster. In altre parole: selezione del modello (o rilevamento automatico della pertinenza o immagina un altro nome di fantasia).z
5. Modalità condizionate iterate
Naturalmente, il bambino poster dell'inferenza approssimativa deve usare le stime dei punti sia per i parametri sia per le osservazioni z .θz
θ∗=argmaxθp(θ,z∗,D)z∗=argmaxzp(θ∗,z,D)
Per vedere come funziona la massimizzazione-aspettativa consiglio vivamente l'articolo. A mio avviso, il punto di forza di questo articolo non è tuttavia l'applicazione a un'alternativa ai mezzi , ma questa esposizione lucida e concisa di approssimazione.k