Comprensione della teoria della d-separazione nelle reti bayesiane causali


15

Sto cercando di comprendere la logica di d-Separation in Causal Bayesian Networks. So come funziona l'algoritmo, ma non capisco esattamente perché il "flusso di informazioni" funzioni come indicato nell'algoritmo.

inserisci qui la descrizione dell'immagine

Ad esempio, nel grafico sopra, pensiamo che ci sia stata data solo X e che nessuna altra variabile sia stata osservata. Quindi, secondo le regole della separazione D, il flusso di informazioni da X a D:

  1. X influenza A, che è . Questo è OK, poiché A causa X e se conosciamo l'effetto X, ciò influisce sulla nostra convinzione sulla causa A. Flussi di informazioni.P(A)P(A|X)

  2. X influenza B, che è . Questo è OK, poiché A è stato modificato dalla nostra conoscenza di X, anche il cambiamento in A può influenzare le nostre convinzioni sulla sua causa, B.P(B)P(B|X)

  3. X influenza C, che è . Questo va bene perché sappiamo che B è influenzato dalla nostra conoscenza del suo effetto indiretto, X, e poiché B è influenzato da X, ciò influenzerà tutti gli effetti diretti e indiretti di B. C è un effetto diretto di B ed è influenzato dalla nostra conoscenza di X.P(C)P(C|X)

Bene, fino a questo punto, tutto va bene per me poiché il flusso delle informazioni avviene secondo relazioni di causa-effetto intuitive. Ma non ho il comportamento speciale delle cosiddette "strutture a V" o "Colliders" in questo schema. Secondo la teoria d-Separation, B e D sono le cause comuni di C nel grafico sopra e dice che se non osservassimo C o alcuno dei suoi discendenti, le informazioni sul flusso da X vengono bloccate su C. Bene, OK , ma la mia domanda è: perché?

Dai tre passaggi precedenti, partendo da X, abbiamo visto che C è influenzato dalla nostra conoscenza di X e che il flusso di informazioni si è verificato in base alla relazione causa-effetto. La teoria della d-separazione dice che non possiamo passare da C a D poiché C non viene osservato. Ma penso che poiché sappiamo che C è di parte e che D è una causa di C, anche D dovrebbe essere influenzato, mentre la teoria dice il contrario. Mi manca chiaramente qualcosa nel mio modo di pensare, ma non riesco a vedere di cosa si tratti.

Quindi ho bisogno di una spiegazione del perché il flusso di informazioni bloccato su C, se C non viene osservato.


Non scorre da X a D, se si osserva solo X. Lo dichiari appena sotto l'immagine. (Anche se lo descrivi correttamente più in basso).
ziggystar,

Lo so già, che il flusso di informazioni è bloccato in C dove abbiamo una "V-Structure". Quello che voglio sapere è perché; perché una V-Structure blocca il flusso di informazioni quando non osserviamo C, dal punto di vista della relazione causa-effetto.
Ufuk Can Bicici,

Risposte:


6

Non è intuitivo che non puoi ragionare dalla causa all'effetto inosservato ad un'altra causa? Se la pioggia (B) e l'irrigatore (D) sono cause del terreno umido (C), allora puoi sostenere che vedere la pioggia implica che il terreno è probabilmente bagnato e continuare a ragionare sul fatto che l'irrigatore deve essere acceso dal suolo è bagnato?! Ovviamente no. Hai sostenuto che il terreno era bagnato a causa della pioggia: non puoi cercare altre cause!

Se osservi il terreno bagnato, ovviamente la situazione cambia. Ora potresti essere in grado di ragionare da una causa all'altra, come spiega Frank.


4

Dimentichiamoci di X per un momento e consideriamo solo il collider di B, C e D. Il motivo per cui la struttura a V può bloccare il percorso tra B e D è che, in generale, se si hanno due variabili casuali indipendenti (B e D) che influiscono sullo stesso risultato (C), quindi conoscerne il risultato può consentire di trarre conclusioni sulla relazione tra le variabili casuali, consentendo così il flusso di informazioni.

P(B|D)P(B)P(D|B)P(D)). Quindi, sapendo che il prato è bagnato sblocca il percorso e rende B e D dipendenti.

Per capirlo meglio, potrebbe essere utile dare un'occhiata al Paradox di Berkson , che descrive la stessa situazione.


1) Ho difficoltà a capire quale sia una causa indipendente prima di definire qualcosa sulla D-Separation. Molti autori definiscono la D-Separation usando relazioni di causa-effetto intuitive. Cerco di costruire un sistema di ragionamento basato su ciò che sto leggendo da diverse fonti e basato sulle mie intuizioni in modo da poter venire a patti con questo Teorema. È come il seguente: "Se non si osserva alcuna variabile diversa da X, la conoscenza di X può influenzare gli effetti di X (tutti i discendenti), le cause dirette o indirette di X (antenati) e tutti gli altri effetti delle cause di X".
Ufuk Can Bicici,

2) Giustifico questo pensiero in questo modo: A) X può influenzare i suoi effetti diretti e indiretti, ovviamente, poiché valori X diversi genereranno cause diverse. B) X può influenzare le sue cause dirette e indirette poiché se osserviamo un effetto, possiamo ottenere nuove informazioni sulle cause, in un approccio diagnostico. C) X influenza gli altri effetti (escludendo se stesso) di tutte le sue cause dirette e indirette, poiché la conoscenza di X ha cambiato le nostre convinzioni su queste cause che a loro volta influenzano tutti gli effetti. Cerco di interpretare tali reti bayesiane causali con questo schema. È corretto per cominciare?
Ufuk Can Bicici,

3) È come se stessi cercando di formare un modello intuitivo di "flusso di informazioni" per comprendere i comportamenti di indipendenza-dipendenza delle variabili. Con questo schema non riesco a vedere quale sia una causa indipendente ed è qui che sono bloccato. Chiaramente mi manca qualcosa o potrei sbagliarmi totalmente con questo modello di pensiero.
Ufuk Can Bicici,

Penso che la mia risposta originale sia stata leggermente fuorviante, perché ho indicato B e D come "cause" (risolto ora). Il flusso di informazioni è un concetto collegato alle osservazioni, non agli interventi causali. Come sapete, due variabili casuali sono indipendenti se osservarne una non fornisce informazioni sulla seconda. Le tue dichiarazioni sembrano confondere l'osservazione e l'inferenza. L'osservazione di X ci consente di regolare la nostra inferenza dei suoi genitori (istruzione A) e delle sue cause dirette, ma se una struttura a V sta bloccando il percorso, allora non possiamo regolare l'inferenza per cause indirette, per i motivi sopra descritti.
FrankD

1

Bene, fino a questo punto, tutto va bene per me poiché il flusso delle informazioni avviene secondo relazioni di causa-effetto intuitive. Ma non ho il comportamento speciale delle cosiddette "strutture a V" o "Colliders" in questo schema.

Quindi il dado duro da rompere qui è la struttura a V. Vorrei illustrare la differenza tra la probabilità di una variabile S condizionata solo dall'osservazione dell'effetto e l' influenza dell'osservazione di un'altra variabile D che è indipendente da S nella stessa situazione usando un esempio fittizio.

Diciamo che qualcuno sta seguendo un corso, diciamo algebra lineare. Se riesce a superarlo dipende principalmente dalla difficoltà dell'esame. Indichiamo l'evento di passare il corso di P, passando come 1 e 0 altrimenti; e la difficoltà dell'esame come D, difficile come 1 e facile come 0. E qualcosa di assurdo può anche esercitare un'influenza sulla sua performance o sul risultato, diciamo che la singolarità accade e che sarebbe stato sottoposto a un lavaggio del cervello da una macchina e poi avrebbe deciso di non farlo fare l'esame. Indichiamo quell'evento per S, e la sua probabilità è 0,0001. Sembra impossibile ma per definizione la sua possibilità non dovrebbe essere zero.

Quindi ora abbiamo un grafico della forma della v-struttura:

 D   S
  | |
 \| |/ 
   P  

P(¬P|S)=0.999999P(P|S)=0.000001

| d0   | d1      |      
|:-----|--------:|   
| 0.5  | 0.5     |  

| s0     | s1      |      
|:-------|--------:|   
| 0.9999 | 0.0001  |

| S     | D    | P(p0|S,D) | P(p1|S,D) |  
|:------|-----:|----------:|----------:|
|s0     | d0   |   0.20    |   0.80    |
|s0     | d1   |   0.90    |   0.10    |
|s1     | d0   |   0.999999|   0.000001|
|s1     | d1   |   0.999999|   0.000001| 

P(S|P)P(S|P,D)

1) Se non conosciamo il risultato, possiamo calcolare la probabilità che si verifichi la singolarità dato che il corso è semplice.

P(S|¬D)=P(S,P|¬D)+P(S,¬P|¬D)=P(S=1,P=1,D=0)P(D=0)+P(S=1,P=0,D=0)P(D=0)=P(S=1)P(D=0|S=1)P(P=1|D=0,S=1)P(D=0)+P(S=1)P(D=0|S=1)P(P=0|D=0,S=1)P(D=0)=P(S=1)P(D=0|S=1)P(D=0)=P(S=1)P(D=0)P(D=0)=P(S=1)=0.0001

Come puoi vedere sopra, non importa se l'esame è stato superato o meno. Ciò che viene come dovrebbe venire. Può essere visto come una probabilità marginale su P.

E possiamo anche capire la probabilità che si verifichi la singolarità dato che lo studente non supera l'esame:

P(S,|¬P)=P(S,¬P)P(¬P)=P(S,¬p,D)+P(S,¬P,¬D)P(¬P)=P(¬P|S,D)P(S)P(D)+P(¬P|S,¬D)P(S)P(¬D)ΣS,DP(¬P|S,D)P(S)P(D)=0.0001818

Sapendo che il ragazzo non supera l'esame, possiamo immaginare che potrebbe essere sottoposto a lavaggio del cervello da una macchina è 0,0001818 che è un po 'più grande di quando non lo sappiamo.

P(S,|¬P,¬D)=P(S=1,P=0,D=0)P(P=0,D=0)=P(P=0|S=1,D=0)P(S=1)P(D=0)P(P=0|S=1,D=0)P(S=1)P(D=0)+P(P=0|S=0,D=0)P(S=0)P(D=0)=0.999999×0.0001×0.50.2×0.9999×0.5+0.999999×0.0001×0.5=0.0004998

P(S|P)P(S|P,D)SD|Pio(P(P,S,D)) il che significa che D può influenzare S tramite P.

Possa questa derivazione dettagliata essere utile.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.