Perché il confondatore deve essere causalmente correlato al risultato? Basterebbe che il confondatore fosse associato al risultato?
No, non è abbastanza.
Cominciamo con il caso in cui è possibile avere una variabile che è sia associata al risultato sia al trattamento, ma il controllo per esso pregiudicherebbe la stima.
Ad esempio, considera il seguente grafico causale, tratto da Pearl , dove è un collider pre-trattamento:Z
In questo caso, non c'è confusione, puoi stimare l'effetto di X su Y direttamente.
Si noti, tuttavia, che Z è associato sia al trattamento che al risultato. Ma non è ancora un confuso. In effetti, se controlli per Z in questo caso, potresti distorcere la tua stima. Questa situazione è chiamata polarizzazione M (a causa della struttura del grafico).
XY
Anche in questo caso Z è associato a X e Y, ma non è un cofondatore. Non dovresti controllarlo.
Ora, vale la pena notare che anche se una variabile è causalmente correlata al risultato , non è necessariamente un elemento di confusione.
Prendiamo il caso dei mediatori, nel semplice grafico seguente:
Se vuoi misurare l'effetto totale di D su Y, non dovresti controllare le cose che mediano l'effetto --- in questo caso M. Cioè, M è causalmente correlato a Y, ma non è un confondente rispetto al effetto totale di D su Y sia.
Si noti tuttavia che definire la confusione è molto più facile che definire cosa sia un confonditore . Per una discussione più rigorosa sulla definizione di confuso , potresti voler leggere questo articolo di VanderWeele e Shpitser.
Perché è così? Perché il concetto principale qui è quello del confondersi stesso, non del confondente. Per la tua domanda di ricerca, dovresti chiederti "come posso eliminare il confusione?" invece di "questa variabile è un confondente?".
E come nota finale, vale la pena ricordare che queste idee sbagliate sono ancora diffuse. Giusto per illustrare, prendi questa citazione da un articolo del 2016 :
L'inferenza causale in assenza di un esperimento randomizzato o di un forte disegno quasi-sperimentale richiede un condizionamento appropriato su tutte le variabili pre-trattamento che predicono sia il trattamento che l'esito, noti anche come covariate confondenti.
Come abbiamo mostrato negli esempi precedenti, questo non è corretto. I confonditori non sono "tutte le variabili pre-trattamento che predicono sia il trattamento che l'esito". Il controllo per tutti loro potrebbe non essere necessario per eliminare confusione o potrebbe anche influenzare i risultati. Pearl ha un'ottima panoramica sul confondimento qui.