Solo per salvare un po 'di digitazione, chiama i dati osservati X , i dati mancanti Z (ad es. Gli stati nascosti dell'HMM) e il vettore dei parametri che stiamo cercando di trovare Q (ad es. Probabilità di transizione / emissione).
La spiegazione intuitiva è che fondamentalmente imbrogliamo, fingiamo per un momento che conosciamo Q modo da poter trovare una distribuzione condizionale di Z che a sua volta ci permette di trovare l'MLE per (ignorando per il momento il fatto che stiamo praticamente facendo una circolare argomento), quindi ammettiamo che abbiamo imbrogliato, messo il nostro nuovo valore migliore per , e rifatto tutto da capo finché non dobbiamo più imbrogliare.QQ
Leggermente più tecnicamente, fingendo di conoscere il valore reale , possiamo fingere di sapere qualcosa sulla distribuzione condizionale di Z | { X , Q } , che ci consente di migliorare la nostra stima per Q , che ora pretendiamo sia il valore reale per Q, quindi possiamo far finta di sapere qualcosa sulla distribuzione condizionale di Z | { X , Q } , che ci consente di migliorare la nostra stima per Q , che ... e così via.QZ|{X,Q}QQZ|{X,Q}Q
Ancora più tecnicamente, se conoscessimo , potremmo massimizzare il log ( f ( Q | X , Z ) ) e avere la risposta giusta. Il problema è che non conosciamo Z e qualsiasi stima per Q deve dipendere da essa. Ma se vogliamo trovare la migliore stima (o distribuzione) per Z , quindi abbiamo bisogno di conoscere X e Q . Siamo bloccati in una situazione di galline e uova se vogliamo l'ottimizzatore unico analiticamente.Zlog(f(Q|X,Z))ZQZXQ
Il nostro "out" è che - per qualsiasi stima di (chiamalo Q n ) - possiamo trovare la distribuzione di Z | { Q n , X } e così possiamo massimizzare la nostra probabilità di log congiunta prevista di Q | { X , Z } , rispetto alla distribuzione condizionale di Z | { Q n , X } . Questa distribuzione condizionale ci dice sostanzialmente come Z dipende dal valore corrente di Q dato XQQnZ|{Qn,X}Q|{X,Z}Z|{Qn,X}ZQXe ci consente di sapere come modificare per aumentare contemporaneamente la nostra probabilità sia per Q che per Z per un valore particolare di Q (che abbiamo chiamato Q n ). Dopo aver scelto un nuovo Q n + 1 , abbiamo una distribuzione condizionale diversa per Z | { Q n + 1 , X } e quindi devono ricalcolare le aspettative.QQZQQnQn+1Z|{Qn+1,X}