Ciò che è nascosto e ciò che viene osservato
La cosa che è nascosta in un modello Markov nascosto è la stessa cosa che è nascosta in un modello di miscela discreta, quindi per chiarezza, dimentica la dinamica dello stato nascosto e mantieni un modello di miscela finito come esempio. Lo "stato" in questo modello è l'identità del componente che ha causato ciascuna osservazione. In questa classe di modello tali cause non vengono mai osservate, quindi la "causa nascosta" viene tradotta statisticamente nell'affermazione che i dati osservati hanno dipendenze marginali che vengono rimosse quando il componente di origine è noto. E si stima che i componenti di origine siano qualunque cosa renda vera questa relazione statistica.
Ciò che è nascosto in una rete neurale multistrato feedforward con unità centrali sigmoidi sono gli stati di quelle unità, non le uscite che sono il bersaglio dell'inferenza. Quando l'output della rete è una classificazione, ovvero una distribuzione di probabilità su possibili categorie di output, questi valori di unità nascoste definiscono uno spazio in cui le categorie sono separabili. Il trucco nell'apprendimento di un tale modello è quello di creare uno spazio nascosto (regolando la mappatura delle unità di input) all'interno del quale il problema è lineare. Di conseguenza, i limiti di decisione non lineari sono possibili dal sistema nel suo insieme.
Generativo contro discriminativo
Il modello di miscela (e HMM) è un modello del processo di generazione dei dati, talvolta chiamato probabilità o "modello a termine". Se combinato con alcune ipotesi sulle probabilità precedenti di ogni stato, è possibile inferire una distribuzione su possibili valori dello stato nascosto usando il teorema di Bayes (un approccio generativo). Si noti che, mentre viene chiamato un "precedente", sia il precedente che i parametri nella probabilità vengono generalmente appresi dai dati.
Contrariamente al modello di miscela (e HMM) la rete neurale apprende direttamente una distribuzione posteriore sulle categorie di output (un approccio discriminatorio). Ciò è possibile perché durante la stima sono stati osservati i valori di output. E poiché sono stati osservati, non è necessario costruire una distribuzione posteriore da un modello precedente e specifico per la probabilità come una miscela. Il posteriore viene appreso direttamente dai dati, che è più efficiente e meno dipendente dal modello.
Mescolare e abbinare
Per rendere le cose più confuse, questi approcci possono essere mescolati insieme, ad esempio quando lo stato del modello di miscela (o HMM) viene talvolta effettivamente osservato. Quando ciò è vero, e in alcune altre circostanze non rilevanti qui, è possibile allenarsi in modo discriminatorio in un modello altrimenti generativo. Allo stesso modo è possibile sostituire la mappatura del modello di miscela di un HMM con un modello forward più flessibile, ad esempio una rete neurale.
Le domande
Quindi non è del tutto vero che entrambi i modelli prevedono lo stato nascosto. Gli HMM possono essere utilizzati per prevedere lo stato nascosto, sebbene solo del tipo previsto dal modello forward. Le reti neurali possono essere utilizzate per prevedere uno stato non ancora osservato , ad esempio stati futuri per i quali sono disponibili predittori. Questo tipo di stato non è nascosto in linea di principio, semplicemente non è stato ancora osservato.
Quando useresti l'uno anziché l'altro? Bene, le reti neurali creano modelli di serie temporali piuttosto scomodi nella mia esperienza. Presumono anche che tu abbia osservato l'output. Gli HMM non lo fanno, ma in realtà non hai alcun controllo su quale sia lo stato nascosto. Tuttavia sono modelli di serie storiche adeguati.