Il riconoscimento vocale non è complesso come un esempio come pensi.
Innanzitutto, immagina di creare una catena di Markov (MC) che riconosca il testo. Il tuo programma legge un sacco di testo (perfetto, senza errori) e calcola stati (parole) e cambi di stato (parole successive). Sembra che tu l'abbia abbattuto. Ora potresti generare del testo o dare del testo per prevedere la parola successiva usando gli stati e le probabilità di transizione del tuo MC.
Ora immagina di voler usare il tuo MC con la voce. Avrai semplicemente persone che leggono un testo simile al tuo MC e sei pronto, giusto? Bene ... Tranne il fatto che pronunceranno le parole in modo diverso: dove il testo scritto dice "patata", in realtà sentirai "po-TAY-toh" e "po-TAH-toh" e "pu-TAY -to ", ecc. E viceversa: il testo" ha mangiato "e" otto "rappresentano due stati diversi, ma sono (di solito) pronunciati uguali.
Il tuo algoritmo non vede più gli stati sottostanti (parole), vede una distribuzione probabilistica di pronunce per ogni parola. Il tuo MC originale è nascosto dietro le pronunce e ora il tuo modello deve essere a due livelli.
Quindi potresti convincere molte persone a leggere ad alta voce il testo che hai usato per il tuo allenamento originale, potresti ottenere una distribuzione per le pronunce per ogni parola, quindi combinare il tuo modello originale con il modello di pronuncia e hai un modello Markov nascosto ( un HMM).
La maggior parte dei problemi del mondo reale sarà così, poiché il mondo reale tende ad essere rumoroso. In realtà non saprai in quale stato si trova qualcosa. Invece, otterrai una varietà di indicatori per ogni stato: a volte lo stesso indicatore per stati diversi ("mangiato" e "otto") e talvolta indicatori diversi per lo stesso stato ("pu-TAY-toe" e "pah-tah-TOE"). Pertanto, gli HMM sono più adatti ai problemi del mondo reale.
[Due note a margine: 1) l'effettivo riconoscimento vocale funziona a livello di fonema, non a livello di parole, e 2) credo che gli HMM siano stati il re della collina per il riconoscimento vocale, ma recentemente sono stati detronizzati da profonde reti neurali.]