Significato delle probabilità di transizione iniziali in un modello markov nascosto

11

Quali sono i vantaggi di dare determinati valori iniziali alle probabilità di transizione in un modello nascosto di Markov? Alla fine il sistema li imparerà, quindi che senso ha dare valori diversi da quelli casuali? L'algoritmo sottostante fa la differenza come Baum-Welch?

Se conosco le probabilità di transizione all'inizio in modo molto preciso e il mio scopo principale è prevedere le probabilità di uscita dallo stato nascosto alle osservazioni, cosa mi consiglieresti?

machine-learning expectation-maximization hidden-markov-model

— metdos
fonte

7

Baum-Welch è un algoritmo di ottimizzazione per il calcolo dello stimatore della massima verosimiglianza. Per i modelli Markov nascosti, la superficie di probabilità può essere piuttosto brutta e non è certamente concava. Con buoni punti di partenza l'algoritmo può convergere più velocemente e verso l'MLE.

Se conosci già le probabilità di transizione e desideri prevedere gli stati nascosti dall'algoritmo di Viterbi, hai bisogno delle probabilità di transizione. Se li conosci già, non è necessario rivalutarli utilizzando Baum-Welch. La rivalutazione è computazionalmente più costosa della previsione.

— NRH
fonte

3

Alcuni dei materiali relativi alle stime iniziali di HMM sono riportati in

Lawrence R. Rabiner (febbraio 1989). "Un tutorial su Hidden Markov Models e applicazioni selezionate nel riconoscimento vocale". Atti dell'IEEE 77 (2): 257–286. doi: 10.1109 / 5.18626 (Sezione VC)

Puoi anche dare un'occhiata al toolkit di modellazione probabilistica per Matlab / Octave , in particolare la funzione hmmFitEm dove puoi fornire il tuo parametro iniziale del modello o semplicemente usando (opzione 'nrandomRestarts'). Durante l'utilizzo di 'nrandomRestarts', il primo modello (al passaggio di inizializzazione) utilizza:

Montare una miscela di gaussiani tramite MLE / MAP (usando EM) per i dati continui;
Adatta una miscela di prodotti di distribuzioni discrete tramite MLE / MAP (usando EM) per dati discreti;

il secondo, il terzo modello ... (nella fase di init) usano parametri inizializzati casualmente e come risultato convergono più lentamente con valori di Log Likelihood per lo più bassi.

— Sergey
fonte