Quindi, se è così, l'indipendenza statistica significa automaticamente mancanza di causalità?
No, ed ecco un semplice contro esempio con un normale multivariato,
set.seed(100)
n <- 1e6
a <- 0.2
b <- 0.1
c <- 0.5
z <- rnorm(n)
x <- a*z + sqrt(1-a^2)*rnorm(n)
y <- b*x - c*z + sqrt(1- b^2 - c^2 +2*a*b*c)*rnorm(n)
cor(x, y)
Con il grafico corrispondente,
Qui abbiamo che ed sono marginalmente indipendente (nel caso normale multivariata correlazione nulla implica indipendenza). Ciò accade perché il percorso backdoor tramite annulla esattamente il percorso diretto da a , ovvero . Pertanto . Tuttavia, causa direttamente e abbiamo che , che è diverso da .y z x y c o v ( x , y ) = b - a ∗ c = 0.1 - 0.1 = 0 E [ Y | X = x ] = E [ Y ] = 0 x y E [ Y | d o ( X = x ) ] = b x E [ Y ]XyzXyc o v ( x , y) = b - a ∗ c = 0,1 - 0,1 = 0E[ Y| X= x ] = E[ Y] = 0XyE[ Y| do ( X= x ) ] = b xE[ Y] = 0
Associazioni, interventi e controfattuali
Penso che sia importante fare alcuni chiarimenti qui riguardo ad associazioni, interventi e controfattuali.
I modelli causali comportano affermazioni sul comportamento del sistema: (i) in osservazioni passive, (ii) in interventi, nonché (iii) controfattuali. E l'indipendenza a un livello non si traduce necessariamente in un altro.
Come mostra l'esempio sopra, non possiamo avere alcuna associazione tra e , cioè , e può comunque essere il caso che le manipolazioni su cambino la distribuzione di , cioè .Y P ( Y | X ) = P ( Y ) X Y P ( Y | d o ( x ) ) ≠ P ( Y )XYP( Y| X) = P( Y)XYP( Y| do ( x ) ) ≠ P( Y)
Ora possiamo fare un ulteriore passo avanti. Possiamo avere modelli causali in cui intervenire su non cambia la distribuzione della popolazione di , ma ciò non significa mancanza di causalità controfattuale! Cioè, anche se , per ogni individuo il loro esito sarebbe stato diverso se si è modificato il suo . Questo è precisamente il caso descritto da user20160, così come nella mia precedente risposta qui.Y P ( Y | d o ( x ) ) = P ( Y ) Y XXYP( Y| do ( x ) ) = P( Y)YX
Questi tre livelli formano una gerarchia di compiti di inferenza causale , in termini di informazioni necessarie per rispondere alle domande su ciascuno di essi.