Come viene definita la causalità in modo matematico?


16

Qual è la definizione matematica di una relazione causale tra due variabili casuali?

Dato un campione dalla distribuzione congiunta di due variabili casuali e , quando potremmo dire che causa ?XYXY

Per il contesto, sto leggendo questo articolo sulla scoperta causale .


2
Per quanto posso vedere la causalità è un concetto scientifico non matematico. Puoi modificare per chiarire?
mdewey,

2
@mdewey Non sono d'accordo. La causalità può essere incassata in termini completamente formali. Vedi ad esempio la mia risposta.
Kodiologo l'

Risposte:


9

Qual è la definizione matematica di una relazione causale tra due variabili casuali?

Matematicamente, un modello causale consiste in relazioni funzionali tra variabili. Ad esempio, si consideri il sistema di equazioni strutturali di seguito:

x=fx(ϵx)y=fy(x,ϵy)

Ciò significa che x determina funzionalmente il valore di y (se si interviene su x questo cambia i valori di y ) ma non viceversa. Graficamente, questo è solitamente rappresentato da xy , il che significa che x entra nell'equazione strutturale di y. Come addendum, puoi anche esprimere un modello causale in termini di distribuzioni congiunte di variabili controfattuali, che è matematicamente equivalente ai modelli funzionali .

Dato un campione dalla distribuzione congiunta di due variabili casuali X e Y, quando potremmo dire che X causa Y?

A volte (o la maggior parte delle volte) non si ha conoscenza della forma delle equazioni strutturali fx , fy , e nemmeno se xy o yx . Le uniche informazioni che hai sono la distribuzione di probabilità congiunta p(y,x) (o campioni da questa distribuzione).

Questo porta alla tua domanda: quando posso recuperare la direzione della causalità solo dai dati? O, più precisamente, quando posso recuperare se x inserisce l'equazione strutturale di y o viceversa, solo dai dati?

Certamente, senza ipotesi fondamentalmente non verificabili sul modello causale, questo è impossibile . Il problema è che diversi modelli causali possono comportare la stessa distribuzione di probabilità congiunta delle variabili osservate. L'esempio più comune è un sistema lineare causale con rumore gaussiano.

Ma sotto alcune ipotesi causali, questo potrebbe essere possibile --- ed è su questo che lavora la letteratura sulla scoperta causale. Se non si è esposti in precedenza a questo argomento, è possibile iniziare da Elements of Causal Inference di Peters, Janzing e Scholkopf, nonché dal capitolo 2 di Causality di Judea Pearl. Abbiamo un argomento qui sul CV per riferimenti sulla scoperta causale , ma non abbiamo ancora molti riferimenti elencati lì.

Pertanto, non esiste una sola risposta alla tua domanda, poiché dipende dalle ipotesi che si fanno. Il documento che citi cita alcuni esempi, come l'assunzione di un modello lineare con rumore non gaussiano . Questo caso è noto come LINGAN (abbreviazione di modello aciclico lineare non gaussiano), ecco un esempio in R:

library(pcalg)
set.seed(1234)
n <- 500
eps1 <- sign(rnorm(n)) * sqrt(abs(rnorm(n)))
eps2 <- runif(n) - 0.5
x2 <- 3 + eps2
x1 <- 0.9*x2 + 7 + eps1

# runs lingam
X <- cbind(x1, x2)
res <- lingam(X)
as(res, "amat") 

# Adjacency Matrix 'amat' (2 x 2) of type ‘pag’:
#     [,1]  [,2]
# [1,] .     .   
# [2,]  TRUE .     

Notate qui che abbiamo un modello causale lineare con rumore non gaussiano in cui x2 causa x1 e lingam recupera correttamente la direzione causale. Tuttavia, notare che ciò dipende in modo critico dalle ipotesi di LINGAM.

Nel caso del documento che citi, fanno questo specifico presupposto (vedi il loro "postulato"):

Se xy , la lunghezza minima della descrizione della mappatura del meccanismo da X a Y è indipendente dal valore di X, mentre la lunghezza minima della descrizione della mappatura del meccanismo da Y a X dipende dal valore di Y.

Nota che questo è un presupposto. Questo è ciò che chiameremmo la loro "condizione di identificazione". In sostanza, il postulato impone restrizioni alla distribuzione congiunta p(x,y) . In altre parole, il postulato afferma che se xy determinate restrizioni nei dati e se restano valideyx altre restrizioni. Questi tipi di restrizioni che hanno implicazioni verificabili (impongono vincoli su p(y,x) ) è ciò che consente di recuperare direzionalmente dai dati osservativi.

Come osservazione finale, i risultati della scoperta causale sono ancora molto limitati e dipendono da forti assunzioni, fai attenzione quando li applichi nel contesto del mondo reale.


1
C'è una possibilità che aumenti la tua risposta per includere in qualche modo alcuni semplici esempi con dati falsi, per favore? Ad esempio, dopo aver letto un po 'di Elements of Causal Inference e aver visto alcune delle lezioni di Peters, e un framework di regressione è comunemente usato per motivare la necessità di comprendere il problema in dettaglio (non sto nemmeno toccando il loro lavoro ICP). Ho l'impressione (forse errata) che nel tuo sforzo di allontanarti dall'RCM, le tue risposte tralascino tutti i macchinari di modellazione tangibili.
usεr11852 dice Reinstate Monic l'

1
@ usεr11852 Non sono sicuro di aver capito il contesto delle tue domande, vuoi esempi di scoperta causale? Ci sono molti esempi nel documento che Jane ha fornito. Inoltre, non sono sicuro di aver capito cosa intendi per "evitare RCM e tralasciare i macchinari di modellazione tangibili effettivi", quale macchinario tangibile ci manca nel contesto di scoperta causale qui?
Carlos Cinelli,

1
Mi scuso per la confusione, non mi importa degli esempi tratti dai documenti. Posso citare altri documenti da solo. (Ad esempio, Lopez-Paz et al. CVPR 2017 sul loro coefficiente di causalità neurale) Quello che mi interessa è un semplice esempio numerico con dati falsi che qualcuno esegue in R (o la tua lingua preferita) e capisce cosa intendi. Se citi ad esempio Peters 'et al. libro e hanno piccoli frammenti di codice che sono estremamente utili (e occasionalmente usano solo lm). Non tutti possiamo aggirare i campioni osservativi dei set di dati di Tubinga per avere un'idea della scoperta causale! :)
usεr11852 dice Reinstate Monic l'

1
@ usεr11852 certo, incluso un falso esempio è banale, posso includerne uno usando lingam in R. Ma ti dispiacerebbe spiegare cosa intendevi per "evitare RCM e tralasciare i macchinari di modellazione tangibili"?
Carlos Cinelli,

2
@ usεr11852 ok grazie per il feedback, cercherò di includere più codice quando appropriato. Come osservazione finale, i risultati della scoperta causale sono ancora molto limitati, quindi le persone devono fare molta attenzione quando li applicano a seconda del contesto.
Carlos Cinelli,

4

Esistono vari approcci per formalizzare la causalità (che è in linea con un sostanziale disaccordo filosofico sulla causalità che esiste da secoli). Uno popolare è in termini di risultati potenziali. L'approccio dei risultati potenziali, chiamato modello causale di Rubin , suppone che per ogni stato causale ci sia una variabile casuale diversa. Quindi, Y1 potrebbe essere la variabile casuale dei possibili risultati di una sperimentazione clinica se un soggetto assume il farmaco in studio e Y2 potrebbe essere la variabile casuale se assume il placebo. L'effetto causale è la differenza tra Y1 e Y2 . Se in effetti Y1=Y2 , si può dire che il trattamento non ha effetto. Altrimenti, potremmo dire che la condizione del trattamento provoca il risultato.

Le relazioni causali tra variabili possono anche essere rappresentate con grafici acylical direzionali , che hanno un sapore molto diverso ma risultano matematicamente equivalenti al modello di Rubin (Wasserman, 2004, sezione 17.8).

Wasserman, L. (2004). Tutte le statistiche: un corso conciso di inferenza statistica . New York, NY: Springer. ISBN 978-0-387-40272-7.


grazie. quale sarebbe un test per esso dato un set di campioni dalla distribuzione congiunta?
Jane,

3
Sto leggendo arxiv.org/abs/1804.04622 . Non ho letto i suoi riferimenti. Sto cercando di capire cosa si intende per causalità basata su dati osservativi.
Jane,

1
Y1Y2XY

2
(X,y=X3+ε). La distribuzione condizionale di y dato x è essenzialmente la distribuzione del rumoreεpiù qualche traduzione, mentre ciò non vale per la distribuzione condizionale di x dato y. Inizialmente capisco l'esempio. Sto cercando di capire qual è la definizione generale per la scoperta osservazionale della causalità.
Jane,

2
@Jane per caso osservativo (per la tua domanda), in generale non puoi inferire la direzione della causalità puramente matematicamente, almeno per il caso a due variabili. Per più variabili, in base a ipotesi aggiuntive (non verificabili) è possibile presentare un reclamo, ma la conclusione può ancora essere messa in discussione. Questa discussione è molto lunga nei commenti. :)
Vimal,

0

Esistono due modi per determinare se X è la causa di Y. Il primo è standard mentre il secondo è la mia richiesta.

  1. Esiste un intervento su X tale che il valore di Y è cambiato

An intervention is a surgical change to a variable that does not affect variables it depends on. Interventions have been formalized rigorously in structural equations and causal graphical models, but as far as I know, there is no definition which is independent of a particular model class.

  1. The simulation of Y requires the simulation of X

To make this rigorous requires formalizing a model over X and Y, and in particular the semantics which define how it is simulated.

In modern approaches to causation, intervention is taken as the primitive object which defines causal relationships (definition 1). In my opinion, however, intervention is a reflection of, and necessarily consistent with simulation dynamics.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.