Qual è la definizione matematica di una relazione causale tra due variabili casuali?
Matematicamente, un modello causale consiste in relazioni funzionali tra variabili. Ad esempio, si consideri il sistema di equazioni strutturali di seguito:
x=fx(ϵx)y=fy(x,ϵy)
Ciò significa che x determina funzionalmente il valore di y (se si interviene su x questo cambia i valori di y ) ma non viceversa. Graficamente, questo è solitamente rappresentato da x→y , il che significa che x entra nell'equazione strutturale di y. Come addendum, puoi anche esprimere un modello causale in termini di distribuzioni congiunte di variabili controfattuali, che è matematicamente equivalente ai modelli funzionali .
Dato un campione dalla distribuzione congiunta di due variabili casuali X e Y, quando potremmo dire che X causa Y?
A volte (o la maggior parte delle volte) non si ha conoscenza della forma delle equazioni strutturali fx , fy , e nemmeno se x→y o y→x . Le uniche informazioni che hai sono la distribuzione di probabilità congiunta p(y,x) (o campioni da questa distribuzione).
Questo porta alla tua domanda: quando posso recuperare la direzione della causalità solo dai dati? O, più precisamente, quando posso recuperare se x inserisce l'equazione strutturale di y o viceversa, solo dai dati?
Certamente, senza ipotesi fondamentalmente non verificabili sul modello causale, questo è impossibile . Il problema è che diversi modelli causali possono comportare la stessa distribuzione di probabilità congiunta delle variabili osservate. L'esempio più comune è un sistema lineare causale con rumore gaussiano.
Ma sotto alcune ipotesi causali, questo potrebbe essere possibile --- ed è su questo che lavora la letteratura sulla scoperta causale. Se non si è esposti in precedenza a questo argomento, è possibile iniziare da Elements of Causal Inference di Peters, Janzing e Scholkopf, nonché dal capitolo 2 di Causality di Judea Pearl. Abbiamo un argomento qui sul CV per riferimenti sulla scoperta causale , ma non abbiamo ancora molti riferimenti elencati lì.
Pertanto, non esiste una sola risposta alla tua domanda, poiché dipende dalle ipotesi che si fanno. Il documento che citi cita alcuni esempi, come l'assunzione di un modello lineare con rumore non gaussiano . Questo caso è noto come LINGAN (abbreviazione di modello aciclico lineare non gaussiano), ecco un esempio in R
:
library(pcalg)
set.seed(1234)
n <- 500
eps1 <- sign(rnorm(n)) * sqrt(abs(rnorm(n)))
eps2 <- runif(n) - 0.5
x2 <- 3 + eps2
x1 <- 0.9*x2 + 7 + eps1
# runs lingam
X <- cbind(x1, x2)
res <- lingam(X)
as(res, "amat")
# Adjacency Matrix 'amat' (2 x 2) of type ‘pag’:
# [,1] [,2]
# [1,] . .
# [2,] TRUE .
Notate qui che abbiamo un modello causale lineare con rumore non gaussiano in cui x2 causa x1 e lingam recupera correttamente la direzione causale. Tuttavia, notare che ciò dipende in modo critico dalle ipotesi di LINGAM.
Nel caso del documento che citi, fanno questo specifico presupposto (vedi il loro "postulato"):
Se x→y , la lunghezza minima della descrizione della mappatura del meccanismo da X a Y è indipendente dal valore di X, mentre la lunghezza minima della descrizione della mappatura del meccanismo da Y a X dipende dal valore di Y.
Nota che questo è un presupposto. Questo è ciò che chiameremmo la loro "condizione di identificazione". In sostanza, il postulato impone restrizioni alla distribuzione congiunta p(x,y) . In altre parole, il postulato afferma che se x→y determinate restrizioni nei dati e se restano validey→x altre restrizioni. Questi tipi di restrizioni che hanno implicazioni verificabili (impongono vincoli su p(y,x) ) è ciò che consente di recuperare direzionalmente dai dati osservativi.
Come osservazione finale, i risultati della scoperta causale sono ancora molto limitati e dipendono da forti assunzioni, fai attenzione quando li applichi nel contesto del mondo reale.