Chiarimento sulla massimizzazione delle aspettative


11

Ho trovato un tutorial molto utile per quanto riguarda l' algoritmo EM .

L'esempio e l'immagine del tutorial sono semplicemente geniali.

inserisci qui la descrizione dell'immagine

Domanda correlata sul calcolo delle probabilità come funziona la massimizzazione delle aspettative?

Ho un'altra domanda su come collegare la teoria descritta nell'esercitazione all'esempio.

gtlogP(x;Θ)gt(Θ^(t))=logP(x;Θ^(t))

gt

Θ^A(0)=0.6Θ^B(0)=0.5Θ^A(1)=0.71Θ^B(1)=0.58Θ^(0)Θ^(1)

Q(z)Q(z)=P(z|x;Θ)

Grazie.

Risposte:


1

Ho trovato queste note molto utili per capire cosa stava succedendo nel materiale supplementare.

Risponderò a queste domande un po 'fuori servizio per la continuità.


Primo: perché è quello

θ(0)θ(1)

g0log(P(x;θ))θ(0)θ(1)g0θ


Secondo: perché la disuguaglianza è stretta quando

Q(z)=P(z|x;θ)

C'è un suggerimento nelle note a piè di pagina in cui si dice,

y=E[y]

QP(x,z;θ)Q(z)

P(x,z;θ)=P(z|x;θ)P(x;θ)

che rende la nostra frazione

P(z|x;θ)P(x;θ)P(z|x;θ)=P(x;θ)

P(x;θ)zC

log(zQ(z)C)zQ(z)log(C)

Q(z)


gt

La risposta fornita nelle note che ho collegato è leggermente diversa da quella delle note supplementari, ma differiscono solo per una costante e la stiamo massimizzando, quindi non ha conseguenze. Quello nelle note (con derivazione) è:

gt(θ)=log(P(x|θ(t)))+zP(z|x;θ(t))log(P(x|z;θ)P(z|θ)P(z|x;θ(t))P(x|θ(t)))

Questa formula complessa non è discussa a lungo nelle note supplementari, probabilmente perché molti di questi termini saranno costanti che verranno eliminati quando massimizzeremo. Se sei interessato a come arriviamo qui, in primo luogo, raccomando quelle note che ho collegato.

gt(θ(t))gt(θ(t))=logP(x|θ(t))

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.