Hidden Markov Model vs Markov Transition Model vs State-Space Model ...?


18

Per la tesi di laurea magistrale, sto lavorando allo sviluppo di un modello statistico per le transizioni tra stati diversi, definito dallo stato sierologico. Per ora, non fornirò troppi dettagli in questo contesto, poiché la mia domanda è più generale / teorica. Comunque, la mia intuizione è che dovrei usare un modello nascosto di Markov (HMM); il problema che sto incontrando mentre passo attraverso la letteratura e altre ricerche di base necessarie per formulare il mio modello è la confusione sulla terminologia e le differenze esatte tra i diversi tipi di modelli di processo nascosti. Sono solo vagamente consapevole di ciò che li distingue (esempi a venire). Inoltre, mi sembra che, almeno da quello che ho visto in letteratura, esiste un vocabolario molto non standard costruito attorno a questo tipo di modellazione,

Quindi, speravo che le persone potessero aiutarmi a chiarire alcuni di questi termini per me. Ho una serie di domande, ma suppongo che una o due risposte avranno una risposta soddisfacente, di conseguenza il resto verrà districato. Spero che questo non sia troppo lungo; se un moderatore vuole che lo divida in più post lo farò. In ogni caso, ho messo le mie domande in grassetto, seguite dai dettagli della domanda che ho scoperto durante la mia ricerca di letteratura.

Quindi, in nessun ordine particolare:

1) Che cos'è esattamente un "modello di processo nascosto"?

Ho operato con l'impressione che "modello di processo nascosto" sia una sorta di termine generico che può essere utilizzato per descrivere una serie di diversi tipi di modelli statistici, tutte descrizioni essenzialmente probabilistiche di dati di serie temporali generati da "un sistema di sovrapposizione, processi potenzialmente nascosti, linearmente additivi "([1]). In effetti, [2] definisce un "modello di processo nascosto" come "un termine generale che si riferisce a un modello dello spazio degli stati o un modello di Markov nascosto". [1] sembra dedurre che un modello nascosto di Markov sia un sottotipo di modelli di processo nascosti specificamente orientati all'inferenza sugli stati binari; l'implicazione di base mi sembra che un modello di processo nascosto sia una generalizzazione di un modello di Markov nascosto. A volte vedo "modello di processo nascosto" E la frase "

Questa intuizione da parte mia è corretta? In caso contrario, qualcuno ha un riferimento che delinea più chiaramente questi metodi?

2) Qual è la differenza tra un modello Markov nascosto e un modello spazio-stato?

Di nuovo tornando a [2] (se non altro perché il documento presenta un chiaro glossario di termini, non perché il documento stesso sembra essere particolarmente autorevole; è solo una comoda fonte di definizioni di una frase), la differenza sembra essere quella un modello di Markov nascosto è un tipo specifico di modello di spazio-stato in cui gli stati sono markoviani (non sembra esserci una restrizione definita sull'ordine del processo di Markov; cioè primo ordine, ..., kth order). Qui, un modello dello spazio degli stati è definito come "Un modello che esegue due serie temporali in parallelo, uno cattura la dinamica degli stati reali (latente) e l'altro è costituito da osservazioni fatte da questi stati sottostanti ma probabilmente sconosciuti". Se anche quegli stati mostrano la proprietà Markov, allora è un modello Markov nascosto.

Tuttavia, [3] definisce la differenza tra i modelli dello spazio degli stati e i modelli di Markov nascosti come correlati alle caratteristiche dello stato latente. Qui, un modello nascosto di Markov si occupa di stati discreti mentre i modelli dello spazio degli stati si occupano di stati continui; altrimenti, sono concettualmente identici.

Mi sembrano due definizioni molto diverse. Sotto uno, un modello nascosto di Markov è un sottotipo di modello spazio-stato, mentre sotto l'altro sono entrambi solo istanze diverse di una più ampia classe di modelli di processo nascosti. Quale di questi è corretto? La mia intuizione mi indica di seguire [3] invece di [2], ma non riesco a trovare una fonte autorevole che supporti questo.

3) Che cos'è un "modello di transizione Markov"?

Un altro termine che è emerso in molte fonti è "Modello di transizione di Markov". Non sono stato in grado di trovare questa frase in alcun libro di testo, ma appare molto negli articoli di giornale (basta collegarlo a Google per confermare). Non sono stato in grado di trovare una definizione rigorosa del termine (ogni documento che trovo cita un altro documento, che ne cita un altro, ecc., Mandandomi in una tana di coniglio PubMed che non porta in nessun luogo sano di mente). La mia impressione dal contesto è che è un termine molto generale per riferirsi a qualsiasi modello in cui l'oggetto dell'inferenza è le transizioni tra stati che seguono un processo di Markov e che un Modello di Markov nascosto può essere considerato un tipo specifico di modello di transizione di Markov . [4], tuttavia, sembra usare in modo intercambiabile il modello di transizione, il modello nascosto di Markov e diversi termini simili.

D'altra parte, [5] parla dei modelli di transizione di Markov e dei modelli di Markov nascosti in modo leggermente diverso. Gli autori affermano: "I modelli di transizione forniscono un metodo per sintetizzare le dinamiche dei rispondenti che sono utili per interpretare i risultati da modelli Markov nascosti più complessi". Non capisco del tutto cosa significano con questa frase e non riesco a trovare una giustificazione altrove nel documento. Tuttavia, sembrano implicare che i modelli di transizione di Markov usano il tempo come variabile continua, mentre i modelli nascosti di Markov usano il tempo come variabile discreta (non lo dicono direttamente; dicono che usano il pacchetto R 'msm' per adattarsi alla transizione di Markov modelli, e in seguito descrivono "msm" come tempo di trattamento continuo in contrasto con il pacchetto R per gli HMM).

4) Dove si inseriscono altri concetti, ad esempio Dynamic Bayesian Networks?

Secondo Wikipedia, una rete bayesiana dinamica è una "generalizzazione di modelli Markov nascosti e filtri Kalman". Altrove, ho visto modelli Markov nascosti definiti come un caso speciale di una Rete bayesiana dinamica, "in cui l'intero stato del mondo è rappresentato da un'unica variabile di stato nascosta" ( Definizione del sistema bayesiano dinamico e sua relazione con l'HMM? ) . In genere capisco questa relazione, ed è ben spiegato da [6].

Tuttavia, faccio fatica a capire come questa relazione si adatta al quadro più ampio delle cose. Cioè, data questa relazione tra HMM e DBN, in che modo i modelli di spazio di stato e i modelli di processo nascosti sono correlati ai due? In che modo tutti questi diversi tipi di metodi sono correlati, dato che sembrano esserci più "generalizzazioni" dei modelli nascosti di Markov?


Riferimenti:

[1] Tom M. Mitchell, Rebecca Hutchinson, Indrayana Rustandi. "Modelli di processo nascosti". 2006. CMU-CALD-05-116. Università Carnegie Mellon.

[2] Oliver Giminez, Jean-Dominique Lebreton, Jean-Michel Gaillard, Remi Choquet, Roger Pradel. "Stima dei parametri demografici usando modelli dinamici di processo nascosti". Teologia teorica della popolazione. 2012. 82 (4): 307-316.

[3] Barbara Engelhardt. "Hidden Markov Models e State Space Models". STA561: Apprendimento automatico probabilistico. Duke University. http://www.genome.duke.edu/labs/engelhardt/courses/scribe/lec_09_25_2013.pdf

[4] Jeroen K. Vermunt. "Modellazione latente multilivello di Markov in tempo continuo con un'applicazione all'analisi dei dati di valutazione dell'umore ambulatoriale". Workshop di statistiche sociali. 2012. Università di Tilburg. http://www.lse.ac.uk/statistics/events/SpecialEventsandConferences/LSE2013-Vermunt.pdf

[5] Ken Richardson, David Harte, Kristie Carter. "Comprensione delle transizioni in termini di salute e forza lavoro: applicazione dei modelli Markov ai dati longitudinali SoFIE". Serie di ricerche statistiche ufficiali. 2012.

[6] Zoubin Ghahramani. "Un'introduzione ai modelli nascosti di Markov e alle reti bayesiane". Journal of Pattern Recognition and Artificial Intelligence. 2001. 15 (1): 9-42.


Potresti anche provare una rete neurale ricorrente. Nel riconoscimento vocale, alcuni li hanno usati con successo in sostituzione di un HMM.
Albert

Grazie per il suggerimento Al momento preferirei chiarire le mie domande su queste tecniche prima di passare a studiarne di nuove, però.
Ryan Simmons,

Si riferiscono alla stessa cosa. Si prega di consultare scholarpedia.org/article/State_space_model Sangdon

2
@Ryan Simmons Penso che sarebbe una buona idea dare un'occhiata ai video di matematicalmonk (aka Jeffrey Miller) sulle catene di markov e sui modelli di markov nascosti su YouTube.
JimBoy,

Dal momento che probabilmente hai già consegnato la tua tesi, ti andrebbe di rispondere a questa domanda da solo? Io per primo vorrei che gli esperti rispondessero qui, il che probabilmente vale anche per le quasi 800 altre persone che hanno letto questa domanda.
Ulf Aslak,

Risposte:


4

Quanto segue è citato dal sito Web di Scholarpedia :

Il modello dello spazio di stato (SSM) si riferisce a una classe di modello grafico probabilistico (Koller e Friedman, 2009) che descrive la dipendenza probabilistica tra la variabile di stato latente e la misurazione osservata. Lo stato o la misurazione possono essere continui o discreti. Il termine "spazio statale" ebbe origine negli anni '60 nell'area dell'ingegneria di controllo (Kalman, 1960). SSM fornisce un quadro generale per l'analisi di sistemi dinamici deterministici e stocastici che vengono misurati o osservati attraverso un processo stocastico. Il framework SSM è stato applicato con successo in ingegneria, statistica, informatica ed economia per risolvere un'ampia gamma di problemi di sistemi dinamici. Altri termini usati per descrivere gli SSM sono modelli Markov nascosti (HMM) (Rabiner, 1989) e modelli di processo latenti. Il SSM più studiato è il filtro Kalman,


3

Io e Alan Hawkes abbiamo scritto parecchio sui processi aggregati di Markov con stati discreti in tempo continuo. Il nostro lavoro riguarda il problema dell'interpretazione delle osservazioni di molecole a singolo canale ionico e comprende un trattamento esatto di eventi brevi persi. Una teoria simile funziona anche nella teoria dell'affidabilità. Potrebbe benissimo essere adattato ad altri problemi. Vedere http://www.onemol.org.uk/?page_id=175 per i riferimenti.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.