Quando è inappropriato controllare una variabile?


15

Mi viene in mente almeno un esempio ingenuo. Supponiamo di voler studiare la relazione tra X e Z. Ho anche il sospetto che Y influenzi Z, quindi controllo Y. Tuttavia, a quanto mi risulta, X causa Y e Y causa Z. Pertanto, controllando per Y, "nascondo" la relazione tra X e Z, poiché X è indipendente da Z dato Y.

Ora, nell'esempio precedente, potrebbe essere il caso che le relazioni che dovrei studiare siano quelle tra X e Y, e Y e Z. Tuttavia, se conoscessi queste cose a priori, non farei scienza il primo posto. Lo studio che ho fatto ora suggerisce che non esiste alcuna relazione tra X e Z, il che non è il caso .... X e Z sono correlati.

Questo è illustrato nel seguente diagramma delle dipendenze. Nello scenario giusto, Z dipende da X e Y e X e Y sono indipendenti. Controlliamo giustamente Y per determinare la relazione tra X e Z. Nello scenario sinistro Z dipende da Y che dipende da X. X e Z sono indipendenti dato Y, quindi la relazione tra X e Z è "coperta" controllando per Y.

variable_relationships

La mia domanda è fondamentalmente "Quando è appropriato controllare la variabile Y e quando no?" ... Potrebbe essere difficile o impossibile investigare completamente la relazione tra X e Y, ma, ad esempio, controllare Y a un determinato livello è un opzione. Come decidiamo prima di condurre il nostro studio e quali sono le insidie ​​più comuni nel controllare troppo o troppo poco?

Citazioni apprezzate


7
Per fare un esempio, la tua situazione esatta emerge quando si valuta l'impatto della discriminazione razziale. Lascia che sia razza. PermettereX sia il salario. Lascia che Y sia educazione. Chiaramente l'educazione ha un impatto sui salari, quindi ti consigliamo di controllarlo, MA se la discriminazione razziale fa sì che una minoranza razziale riceva un'istruzione peggiore, il controllo dell'istruzione coprirebbe tale discriminazione. Per esempio. vediNeal and Johnson (1996). Come sottolinea la risposta di Alexis, devi entrare nei dettagli del tuo problema. Non c'è un semplice pulsante da premere che risolva tutto. ZY
Matthew Gunn,

1
Non speravo in un semplice pulsante da premere. In effetti, sarei stato piuttosto deluso se la mia domanda si fosse rivelata una risposta banale. :)
Scott

1
@Repmat Sì. Tuttavia, le 4 assunzioni della stima IV sono raramente soddisfatte e, anche quando lo sono, la forza delle associazioni coinvolte può fare in modo che la stima IV dia risultati distorti. Vedi, ad esempio, Stima causale di Hernán e Robins (citare completamente e link nella mia risposta), capitolo 16: Stima delle variabili strumentali.
Alexis,

1
@Alexis Naturalmente, gli IV sono difficili da trovare ... "Nessun pranzo libero" e tutti, tuttavia, quando lo fai, lo saprai spesso con poco o nessun dubbio.
Repmat

1
@Repmat ... le ipotesi per stime IV valide richiedono più di quel DAG nella foto ... sono davvero piuttosto fragili.
Alexis,

Risposte:


7

Il condizionamento (cioè l'adattamento) delle probabilità di un risultato dato un predittore su terze variabili è ampiamente praticato, ma come giustamente fai notare, può effettivamente introdurre una distorsione nella stima risultante come rappresentazione di effetti causali . Questo può accadere anche con le definizioni "classiche" di un potenziale confondente causale, perché sia ​​il confonditore stesso, sia il predittore di interesse possono ciascuno avere ulteriori confondenti causali a monte. Nel DAG di seguito, ad esempio, è un classico confonditore dell'effetto causale di E su D , perché (1) provoca ed è quindi associato a E , e (2) è associato a D U 2LEDED poiché è associato aU2che è associato con . Tuttavia, il condizionamento o la stratificazione di P ( D | E ) su L (un "collider") produrrà stime causali distorte dell'effetto di E su D perché L è confuso con D dalla variabile non misurata U 2 e L è confuso con E dalla variabile non misurata U 1 .DP(D|E)LEDLDU2LEU1

DAG

Capire quale variabili condizionare o stratificare la propria analisi per fornire una stima causale imparziale richiede un'attenta considerazione dei possibili DAG utilizzando i criteri per l'identificazione dell'effetto causale — nessuna causa comune che non è bloccata dai percorsi backdoor — descritti da Pearl, Robins e altri . Non ci sono scorciatoie. Impara schemi di confondimento comuni. Impara schemi di bias di selezione comuni. Pratica.

Riferimenti

Groenlandia, S., Pearl, J. e Robins, JM (1999). Diagrammi causali per la ricerca epidemiologica . Epidemiologia , 10 (1): 37–48.

Hernán, MA e Robins, JM (2018). Inferenza causale . Chapman & Hall / CRC, Boca Raton, FL

Maldonado, G. and Greenland, S. (2002). Stima degli effetti causali . International Journal of Epidemiology , 31 (2): 422–438.

Pearl, J. (2000). Causalità: modelli, ragionamento e inferenza . Cambridge University Press.


12

Credo che la rapida risposta di una frase alla tua domanda,

Quando è appropriato controllare la variabile Y e quando no?

è il "criterio backdoor".

Il Modello causale strutturale di Judea Pearl può dirti in modo definitivo quali variabili sono sufficienti (e quando è necessario) per il condizionamento, per inferire l'impatto causale di una variabile su un'altra. Vale a dire, si risponde a questo con il criterio back-door, che è descritto nella pagina 19 di questo Pearl dalla documento.

L'avvertenza principale è che richiede di conoscere la relazione causale tra le variabili (sotto forma di frecce direzionali in un grafico). Non c'è modo di aggirare questo. È qui che possono entrare in gioco la difficoltà e la possibile soggettività. Il modello causale strutturale di Pearl ti consente solo di sapere come rispondere alle domande giuste dato un modello causale (cioè un grafico diretto), quale serie di modelli causali è possibile data una distribuzione di dati o come cercare la struttura causale eseguendo il giusto esperimento. Non ti dice come trovare la giusta struttura causale data solo la distribuzione dei dati. In realtà, afferma che ciò è impossibile senza usare la conoscenza / intuizione esterna sul significato delle variabili.

I criteri backdoor possono essere dichiarati come segue:

Per trovare l'impatto causale di su Y , un insieme di nodi variabili SXY,S è sufficiente condizionare purché soddisfi entrambi i seguenti criteri:

1) Nessun elemento in è un discendente di XSX

2) blocca tutti i percorsi "back-door" tra X e YSXY

Qui, un percorso "back-door" è semplicemente un percorso di frecce che iniziano a e terminano con una freccia che punta a X . (La direzione che tutte le altre frecce indicano non è importante.) E il "blocco" è, di per sé, un criterio che ha un significato specifico, che è dato nella pagina 11 del link sopra. Questo è lo stesso criterio che leggeresti quando imparerai a conoscere la "separazione D". Ho trovato personalmente quel capitolo 8 di Bishop's Pattern Recognition and Machine LearningYX. descrive il concetto di blocco nella separazione D molto meglio della fonte di Pearl che ho collegato sopra. Ma va così:

Un insieme di nodi, blocca un percorso tra X e Y se soddisfa almeno uno dei seguenti criteri:S,XY

1) Uno dei nodi nel percorso, che è anche in emette almeno una freccia sul percorso (ovvero la freccia punta lontano dal nodo)S,

2) Un nodo che non è né in né un antenato di un nodo in SSS ha due frecce nel percorso "che si scontrano" verso di esso (cioè incontrandolo testa a testa)

Questo è un criterio o , diversamente dal criterio generale back-door che è un e il criterio.

Per essere chiari sul criterio back-door, ciò che ti dice è che, per un dato modello causale, quando ti condizioni su una variabile sufficiente, puoi imparare l'impatto causale dalla distribuzione di probabilità dei dati. (Come sappiamo, la distribuzione congiunta da sola non è sufficiente per trovare un comportamento causale perché più strutture causali possono essere responsabili della stessa distribuzione. Ecco perché è richiesto anche il modello causale.) La distribuzione può essere stimata utilizzando statistiche ordinarie / metodi di apprendimento automatico sui dati osservativi. Quindi, per quanto ne sai che la struttura causale consente il condizionamento su una variabile (o insieme di variabili), la tua stima dell'impatto causale di una variabile su un'altra è buona quanto la tua stima della distribuzione dei dati, che ottieni attraverso metodi statistici.

Ecco cosa troviamo quando applichiamo il criterio back-door ai tuoi due diagrammi:

In nessun caso non esiste un percorso back-door da a X . Quindi è vero che Y blocca "tutti" i percorsi back-door, perché non ce ne sono. Tuttavia, nel diagramma di sinistra, Y è un discendente diretto di X , mentre nel diagramma di destra non lo è. Pertanto Y segue il criterio backdoor nel diagramma a destra, ma non a sinistra. Questi sono risultati non sorprendenti.ZX.YYX,Y

Ciò che è sorprendente, tuttavia, è che nello schema a destra, fino a quando è il quadro completo, non è necessario condizione su per ottenere l'effetto causale pieno di X su Z . (Detto in altro modo, l' insieme null soddisfa i criteri back-door ed è quindi sufficiente per il condizionamento.) Intuitivamente questo è vero perché il valore di X non è associato a quello di Y, quindi per dati sufficienti puoi semplicemente fare una media sul valori di Y per marginalizzare l'effetto di Y su Z . Un'obiezione a questo punto può essere che i dati sono limitati, quindi non hai una distribuzione rappresentativa diYXZXYYYZ.Valori Y. Ma ricorda che il criterio back-door presuppone che tu abbia la distribuzione probabilistica dei dati. In questo caso si può analiticamente marginalizzare Y . La marginalizzazione su un set di dati finito è solo una stima. Inoltre, nota che èaltamenteimprobabile che questa sia l'immagine completa. Ci sono probabilmente i fattori esterni che hanno un impatto X . Se anche questi fattori sono associati a Y in qualche modo, allora si deve fare più lavoro per vedere se Y deve essere condizionato o se è persino sufficiente. Se si disegna un'altra freccia che punta da Y a X, allora Y diventa necessario per il controllo.YY.X.YYYXY

Questi sono, ovviamente, esempi molto semplici in cui l'intuizione è sufficiente per sapere quando può o non può essere controllato. Ma ecco un altro paio di esempi in cui non è ovvio guardando il diagramma e puoi usare i criteri back-door. Per il seguente schema si chiede se è sufficiente a controllare per Y nel determinare l'impatto causale di X su Z .YYXZ.

Is it sufficient to control for $Y$ to find the causal impact of $X$ on $Z$?

La prima cosa da notare è che, in entrambi i casi, non è un discendente di X . Quindi passa questo criterio. La prossima cosa da notare è che, in entrambi i casi, ci sono diversi percorsi di backdoor da Z a X . Due nel diagramma a sinistra e tre a destra.YX.ZX.

ZYXZWBAX. blocca il primo percorso perché è un nodo che emette frecce che si trova direttamente nel percorso. Y bloccaancheil secondo percorso perché non è né B , né è un discendente di B , che è l'unica freccia che si scontra con il nodo nel percorso. Pertanto Y è un set sufficiente per il condizionamento. (Nota, diversamentevostrodiagramma destra, l'insieme vuoto non è sufficiente per il condizionamento, perché non blocca il percorso Z Y X ).YY B,B,YZYX

Nel diagramma di destra i percorsi backdoor sono gli stessi due come nella sinistra, oltre il percorso ZWBYX. fabloccare questo percorso, perché è una freccia che emette nodo nel percorso. Blocca anche il percorso Z Y X per lo stesso motivo del diagramma di sinistra. Esso tuttavianonbloccare il percorso Z W B A X , perché è un discendente diretto del nodo collider B . Quindi ènonsufficiente per il condizionamento.Y ZYXZWBAX,B.

YAWXZB.XZB,BAW, non sarebbe un problema perché non ha alcun impatto sulle variabili importanti o sulle variabili esogene che le determinano. Tuttavia, se (o uno qualsiasi dei suoi discendenti) è controllato, allora rende effettivamente A e W dipendenti, il che crea la relazione spuria tra X e Z che non vogliamo. Come menzionato nella fonte collegata, questo è un esempio del paradosso di Berkson , in cui l'osservazione di una variabile causata da due fonti indipendenti rende tali fonti dipendenti (ad es. Il risultato di due lanci di monete indipendenti viene reso dipendente dall'osservazione del numero del totale capovolto).BAWXZ

Come ho detto prima, l'uso del criterio back-door richiede che tu conosca il modello causale (cioè il diagramma "corretto" delle frecce tra le variabili). Ma il Modello causale strutturale, secondo me, offre anche il modo migliore e più formale di cercare un tale modello o di sapere quando la ricerca è futile. Ha anche il meraviglioso effetto collaterale di rendere obsoleti termini come "confusione", "mediazione" e "spurie" (che mi confondono). Fammi vedere l'immagine e ti dirò quali cerchi dovrebbero essere controllati.


3
Bello. Stavo discutendo se aggiungere Pearl's Causality alla sezione riferimenti della mia risposta .... e ora l'ho fatto. :)
Alexis

0

Quanto segue potrebbe essere o non essere appropriato al tuo caso: se si Xtratta di un trattamento, potresti essere in grado di aggirare il tuo problema utilizzando la corrispondenza del punteggio di propensione in cui manterresti comunque la variabile Yquando esegui la corrispondenza. In altre parole, si bilanciano le covariate ( Yè una di queste covariate) che prevedono di ricevere il trattamento X.
Si noti come non vi sia alcun riferimento alla variabile risultato Zin quanto sopra. Puoi anche controllare quanto sono equilibrate le tue osservazioni (generando una tabella di bilanciamento prima e dopo la corrispondenza), che potrebbe darti un'idea di quanto Xè determinato da Y.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.