Differenza tra MLE e Baum Welch sul raccordo HMM

10

In questa domanda popolare , la risposta molto votata rende MLE e Baum Welch separati nel raccordo HMM.

Per problemi di allenamento possiamo usare i seguenti 3 algoritmi: MLE (stima della massima verosimiglianza), allenamento di Viterbi (NON confondere con la decodifica di Viterbi), Baum Welch = algoritmo avanti-indietro

MA in Wikipedia , dice

L'algoritmo Baum-Welch utilizza il noto algoritmo EM per trovare la stima della massima verosimiglianza dei parametri

Quindi, qual è la relazione tra MLE e l'algoritmo Baum – Welch?

Il mio tentativo: l'obiettivo dell'algoritmo Baum-Welch è massimizzare la probabilità, ma utilizza un algoritmo specializzato (EM) per risolvere l'ottimizzazione. Possiamo ancora massimizzare la probabilità usando altri metodi come il gradiente decente. Questo è il motivo per cui la risposta separa due algoritmi.

Ho ragione e qualcuno può aiutarmi a chiarire?

hidden-markov-model expectation-maximization

— Haitao Du
fonte

1

Nell'ambito di HMM, l'MLE viene utilizzato in uno scenario supervisionato e il Baum-Welch in uno scenario non supervisionato.

— David Batista,

4

Fai riferimento a una delle risposte (di Masterfool) dal link della domanda che hai fornito,

La risposta di Morat è falsa su un punto: Baum-Welch è un algoritmo Expectation-Maximization, utilizzato per addestrare i parametri di un HMM. Utilizza l'algoritmo avanti-indietro durante ogni iterazione. L'algoritmo avanti-indietro è in realtà solo una combinazione degli algoritmi avanti e indietro: un passaggio in avanti, un passaggio all'indietro.

E sono d'accordo con la risposta di PierreE qui, l'algoritmo Baum – Welch viene utilizzato per risolvere la massima probabilità in HHM. Se gli stati sono noti (sequenza supervisionata, etichettata), viene utilizzato un altro metodo per massimizzare l'MLE (forse come, semplicemente contare la frequenza di ciascuna emissione e transizione osservata nei dati di addestramento, vedere le diapositive fornite da Franck Dernoncourt).

Nell'impostazione di MLE per HMM, non penso che tu possa semplicemente usare la discesa gradiente, poiché la probabilità (o, probabilità logaritmica) non ha una soluzione a forma chiusa e deve essere risolta iterativamente, come nel caso di modelli di miscele quindi passiamo a EM. (Vedi maggiori dettagli in Bishop, libro di riconoscimento dei modelli, capitolo 13.2.1 Pg614)

— Sam
fonte

0

Quindi, qual è la relazione tra MLE e l'algoritmo Baum – Welch?

L'algoritmo di massimizzazione delle aspettative (EM) è più generale e l'algoritmo Baum-Welch ne è semplicemente un'istanza e EM è un algoritmo iterativo per la massima verosimiglianza (ML). Quindi l'algoritmo Baum-Welch è anche un algoritmo iterativo per la massima probabilità.

Esistono normalmente tre algoritmi di ottimizzazione per la stima della massima verosimiglianza (un approccio frequentista): 1) discesa del gradiente; 2) Markov Chain Monte Carlo; 3) massimizzazione delle aspettative.

— Lerner Zhang
fonte

-1

Questa domanda è stata qui per alcuni mesi, ma questa risposta potrebbe aiutare i nuovi lettori, come complemento al commento di David Batista.

L'algoritmo Baulm-Welch (BM) è un algoritmo di massimizzazione delle aspettative per risolvere la stima della massima verosimiglianza (MLE) al fine di addestrare l'HMM quando gli stati sono sconosciuti / nascosti (addestramento non supervisionato).

Ma se conosci gli stati, puoi usare un metodo MLE (che non sarà il BM) per adattare il tuo modello ai dati / stati della coppia in modo controllato.

— PierreE
fonte