Un modello grafico probabilistico (PGM) è un formalismo grafico per modellare in modo compatto distribuzioni di probabilità congiunte e (in) relazioni di dipendenza su un insieme di variabili casuali. Una PGM viene chiamata rete bayesiana quando viene diretto il grafico sottostante e una rete Markov / campo casuale Markovquando il grafico sottostante non è indirizzato. In generale, usi il primo per modellare l'influenza probabilistica tra variabili che hanno una chiara direzionalità, altrimenti usi il secondo; in entrambe le versioni di PGM, la mancanza di spigoli nei grafici associati rappresenta le indipendenze condizionali nelle distribuzioni codificate, sebbene la loro semantica esatta differisca. Il "Markov" nella "rete Markov" si riferisce a una nozione generica di indipendenza condizionale codificata dai PGM, quella di un insieme di variabili casuali XUN essendo indipendente da altre XC dato un insieme di variabili "importanti" XB (il nome tecnico è una coperta di Markov ), vale a direp ( xUN| XB, xC) = p ( xUN| XB) .
Un processo Markov è qualsiasi processo stocastico { Xt} che soddisfa la proprietà Markov . Qui l'accento è posto su una collezione di (scalari) variabili casuali X1, X2, X3,...tipicamente pensato come indicizzato dal tempo, che soddisfa un tipo specifico di indipendenza condizionale, cioè "il futuro è indipendente dal passato dato il presente", approssimativamente parlando p ( xt + 1| Xt, xt - 1, . . . , x1) = p ( xt + 1| Xt) . Questo è un caso speciale dell'idea "Markov" definita dai PGM: prendi semplicemente l'insiemeA = { t + 1 } , B = { t } e prendiC come qualsiasi sottoinsieme di{ T - 1 , t - 2 , . . . , 1 }e invoca la precedente istruzione p ( xUN| XB, xC) = p ( xUN| XB) . Da ciò vediamo che la coperta di Markov di qualsiasi variabile Xt + 1 è il suo predecessore Xt .
Quindi puoi rappresentare un processo di Markov con una rete bayesiana , come una catena lineare indicizzata dal tempo (per semplicità qui consideriamo solo il caso del tempo / stato discreto; foto dal libro PRML di Bishop):
questo tipo di rete bayesiana è noto come rete bayesiana dinamica . Dal momento che è una rete bayesiana (quindi un PGM), si possono applicare algoritmi PGM standard per l'inferenza probabilistica (come l'algoritmo somma-prodotto, di cui le equazioni di Chapman − Kolmogorov rappresentano un caso speciale) e la stima dei parametri (ad es. Massima probabilità, che bolle fino al semplice conteggio) sulla catena. Esempi di applicazione di questo sono il modello di linguaggio HMM e n-gram.
Spesso vedi un diagramma raffigurante una catena di Markov come questa
p ( Xt| Xt - 1)Xt( X( 1 )t, . . . X( D )t)p ( X( 1 )t, . . . X( D )t| X( 1 )t - 1, . . . X( D )t - 1)
Xtt → ∞p ( xt + 1| Xt, xt - 1, . . . , x1) = p ( xt + 1| Xt)