Modelli nascosti di Markov e algoritmo di massimizzazione delle aspettative

10

Qualcuno può chiarire in che modo i modelli nascosti di Markov sono correlati alla massimizzazione delle aspettative? Ho attraversato molti link ma non sono riuscito a trovare una visione chiara.

Grazie!

markov-process expectation-maximization hidden-markov-model

— thchand
fonte

12

L'algoritmo EM (massimizzazione delle aspettative) è un algoritmo generale per l'ottimizzazione della funzione di probabilità nei casi in cui il modello è specificato probabilisticamente in termini di una componente osservata e non osservata (latente). Gli HMM (modelli Markov nascosti) sono modelli di questo modulo perché hanno una componente non osservata, gli stati nascosti e le osservazioni effettive sono spesso chiamate emissioni nella terminologia HMM. Pertanto, gli HMM formano una classe di modelli per i quali l'algoritmo EM può essere utile.

$(X,Y)$ $p_{\theta}(x,y)$ $\theta$ $X = x$

L_{x} (θ) = \sum_{y} p_{θ} (x, y) .

$L_x(\theta) = \sum_{y} p_{\theta}(x,y).$

θ

$\theta$

$x$ $\theta$
il M-step , che è una massimizzazione

L'algoritmo EM ha più senso se i due passaggi precedenti possono essere implementati in modo computazionalmente efficiente, ad esempio quando abbiamo espressioni in forma chiusa per l'attesa condizionale e la massimizzazione.

Storicamente, l'algoritmo EM generale è attribuito a Dempster, Laird e Rubin , che hanno dimostrato, tra l'altro, nel loro documento del 1977 che l'algoritmo conduce a una sequenza di parametri con valori di probabilità monotonamente crescenti. Hanno anche coniato il termine "algoritmo EM". È interessante notare che l'algoritmo EM per HMM è stato descritto già nel 1970 da Baum et al. , e spesso viene anche chiamato algoritmo Baum-Welch nella letteratura HMM (non so esattamente cosa facesse Welch ...).

— NRH
fonte

3

Welch ha inventato quello che ora viene chiamato algoritmo Baum-Welch (lo chiama "la parte facile"); Baum dimostra matematicamente che l'algoritmo funziona ("la parte difficile"). Vedi corsi.cs.tamu.edu/rgutier/cpsc689_s07/welch2003baumWelch.pdf per i dettagli esatti.

— Mikhail Korobov,

@MikhailKorobov, grazie per questo riferimento informativo.

— NRH,

2

La massimizzazione delle aspettative è un metodo iterativo utilizzato per eseguire inferenze statistiche su una varietà di diversi modelli statistici generativi, ad esempio una combinazione di gaussiani e altri modelli di tipo di rete bayesiana. L'unica connessione è che gli HMM sono anche reti bayesiane. Ma uno probabilmente non userebbe EM su HMM perché esiste un algoritmo esatto per l'inferenza all'interno di HMM chiamato algoritmo di Viterbi. Quindi, anche se uno potrebbe usare EM per eseguire l'inferenza su un HMM, non lo faresti perché non c'è motivo di farlo.

— William
fonte

4

Questo non è del tutto esatto perché mescoli due diversi tipi di "inferenza". EM è un algoritmo per la stima di parametri sconosciuti, Viterbi è l'algoritmo per calcolare la sequenza più probabile di stati nascosti. Utilizzeresti EM per gli HMM per la stima dei parametri. Ho fornito maggiori dettagli sull'algoritmo EM con riferimenti storici che spiegano la relazione tra HMM e EM nella mia risposta.

— NRH,

0

In HMM, proviamo a stimare principalmente tre parametri:

$K$ $K$
$K\times K$
$K\times N$ $N$

Ora, la parte EM arriva quando si tenta di stimare le quantità / i parametri sopra indicati. A partire da alcune ipotesi casuali, viene valutata la probabilità delle osservazioni e i parametri vengono regolati iterativamente fino a quando non si ottiene la massima probabilità. Quindi, tramite HMM, modelliamo alcuni processi e per questo dobbiamo introdurre alcuni parametri. Per stimare i parametri, viene visualizzato EM.

Questa è una risposta molto breve L'implementazione di EM richiede una serie di altri sotto-problemi da risolvere attraverso una serie di tecniche. Per una comprensione approfondita, si consiglia caldamente il tutorial di Rabiner classico.

— Riaz Khan
fonte