Differenza tra le reti bayesiane e il processo di Markov?


28

Qual è la differenza tra una rete bayesiana e un processo Markov?

Credevo di aver capito i principi di entrambi, ma ora quando ho bisogno di confrontare i due mi sento perso. Significano quasi lo stesso per me. Sicuramente non lo sono.

Sono anche apprezzati i collegamenti ad altre risorse.


Ricordo che qualcuno mi ha detto su questo sito, le reti bayesiane non richiedono necessariamente l'inferenza bayesiana. I loro nomi derivano dalla regola di Bayes.
Tim

Risposte:


21

Un modello grafico probabilistico (PGM) è un formalismo grafico per modellare in modo compatto distribuzioni di probabilità congiunte e (in) relazioni di dipendenza su un insieme di variabili casuali. Una PGM viene chiamata rete bayesiana quando viene diretto il grafico sottostante e una rete Markov / campo casuale Markovquando il grafico sottostante non è indirizzato. In generale, usi il primo per modellare l'influenza probabilistica tra variabili che hanno una chiara direzionalità, altrimenti usi il secondo; in entrambe le versioni di PGM, la mancanza di spigoli nei grafici associati rappresenta le indipendenze condizionali nelle distribuzioni codificate, sebbene la loro semantica esatta differisca. Il "Markov" nella "rete Markov" si riferisce a una nozione generica di indipendenza condizionale codificata dai PGM, quella di un insieme di variabili casuali XUN essendo indipendente da altre XC dato un insieme di variabili "importanti" XB (il nome tecnico è una coperta di Markov ), vale a direp(XUN|XB,XC)=p(XUN|XB) .

Un processo Markov è qualsiasi processo stocastico {Xt} che soddisfa la proprietà Markov . Qui l'accento è posto su una collezione di (scalari) variabili casuali X1,X2,X3,...tipicamente pensato come indicizzato dal tempo, che soddisfa un tipo specifico di indipendenza condizionale, cioè "il futuro è indipendente dal passato dato il presente", approssimativamente parlando p(Xt+1|Xt,Xt-1,...,X1)=p(Xt+1|Xt) . Questo è un caso speciale dell'idea "Markov" definita dai PGM: prendi semplicemente l'insiemeUN={t+1},B={t} e prendiC come qualsiasi sottoinsieme di{t-1,t-2,...,1}e invoca la precedente istruzione p(XUN|XB,XC)=p(XUN|XB) . Da ciò vediamo che la coperta di Markov di qualsiasi variabile Xt+1 è il suo predecessore Xt .

Quindi puoi rappresentare un processo di Markov con una rete bayesiana , come una catena lineare indicizzata dal tempo (per semplicità qui consideriamo solo il caso del tempo / stato discreto; foto dal libro PRML di Bishop): inserisci qui la descrizione dell'immagine questo tipo di rete bayesiana è noto come rete bayesiana dinamica . Dal momento che è una rete bayesiana (quindi un PGM), si possono applicare algoritmi PGM standard per l'inferenza probabilistica (come l'algoritmo somma-prodotto, di cui le equazioni di Chapman − Kolmogorov rappresentano un caso speciale) e la stima dei parametri (ad es. Massima probabilità, che bolle fino al semplice conteggio) sulla catena. Esempi di applicazione di questo sono il modello di linguaggio HMM e n-gram.

Spesso vedi un diagramma raffigurante una catena di Markov come questainserisci qui la descrizione dell'immagine

p(Xt|Xt-1)Xt(Xt(1),...Xt(D))p(Xt(1),...Xt(D)|Xt-1(1),...Xt-1(D))

Xttp(Xt+1|Xt,Xt-1,...,X1)=p(Xt+1|Xt)


17

Prima alcune parole sui processi Markov. Esistono quattro sapori distinti di quella bestia, a seconda dello spazio degli stati (discreto / continuo) e della variabile temporale (discreto / continuo). L'idea generale di qualsiasi processo Markov è che "dato il presente, il futuro è indipendente dal passato".

Il processo Markov più semplice è lo spazio discreto e finito e la catena Markov a tempo discreto. È possibile visualizzarlo come un insieme di nodi, con bordi diretti tra loro. Il grafico può avere cicli e persino loop. Su ciascun bordo è possibile scrivere un numero compreso tra 0 e 1, in modo tale che per ogni nodo i numeri sui bordi in uscita da quel nodo si sommino a 1.

Ora immagina un seguente processo: inizi in un dato stato A. Ogni secondo, scegli casualmente un bordo in uscita dallo stato in cui ti trovi attualmente, con probabilità di scegliere quel bordo uguale al numero su quel bordo. In tal modo, si genera casualmente una sequenza di stati.

Una visualizzazione molto interessante di un tale processo può essere trovata qui: http://setosa.io/blog/2014/07/26/markov-chains/

Il messaggio da asporto è che una rappresentazione grafica di uno spazio discreto tempo discreto Markov Process è un grafico generale, che rappresenta una distribuzione su sequenze di nodi del grafico (dato un nodo iniziale o una distribuzione iniziale su nodi).

D'altra parte, una rete bayesiana è un DAG ( Directed Acyclic Graph ) che rappresenta una fattorizzazione di una certa distribuzione di probabilità congiunta. Di solito questa rappresentazione cerca di tenere conto dell'indipendenza condizionale tra alcune variabili, per semplificare il grafico e ridurre il numero di parametri necessari per stimare la distribuzione di probabilità congiunta.


3

Mentre cercavo una risposta alla stessa domanda mi sono imbattuto in queste risposte. Ma nessuno di loro chiarisce l'argomento. Quando ho trovato delle buone spiegazioni ho voluto condividere con persone che la pensavano come me.

Nel libro "Il ragionamento probabilistico nei sistemi intelligenti: reti di inferenze plausibili" scritto da Judea Pearl, capitolo 3: Markov e reti bayesiane: due rappresentazioni grafiche della conoscenza probabilistica, p.116:

Il principale punto debole delle reti di Markov è la loro incapacità di rappresentare dipendenze indotte e non transitive; due variabili indipendenti saranno collegate direttamente da un bordo, semplicemente perché qualche altra variabile dipende da entrambi. Di conseguenza, molte utili indipendenze non vengono rappresentate nella rete. Per ovviare a questa carenza, le reti bayesiane usano il linguaggio più ricco di grafici diretti , in cui le direzioni delle frecce ci consentono di distinguere le dipendenze autentiche dalle dipendenze spurie indotte da osservazioni ipotetiche.


1

Un processo di Markov è un processo stocastico con la proprietà markoviana (quando l'indice è il tempo, la proprietà markoviana è un'indipendenza condizionale speciale, che dice che il presente, il passato e il futuro sono indipendenti).

Una rete bayesiana è un modello grafico diretto. (Un campo casuale di Markov è un modello grafico non orientato.) Un modello grafico cattura l'indipendenza condizionale, che può essere diversa dalla proprietà Markoviana.

Non ho familiarità con i modelli grafici, ma penso che un modello grafico possa essere visto come un processo stocastico.


1

-L'idea generale di qualsiasi processo Markov è che "dato il presente, il futuro è indipendente dal passato".

-L'idea generale di qualsiasi metodo bayesiano è che "dato il precedente, il futuro è indipendente dal passato", i suoi parametri, se indicizzati da osservazioni, seguiranno un processo di Markov

PIÙ

"tutto quanto segue sarà lo stesso nel modo in cui aggiorno le mie convinzioni

  • mi dai nuove informazioni A, poi mi dai nuove informazioni B,
  • mi dai nuove informazioni B, quindi nuove informazioni A
  • mi dai A e B insieme "

Quindi i suoi parametri saranno davvero un processo di Markov indicizzato dal tempo e non dalle osservazioni

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.