In quali condizioni la correlazione implica la causalità?


85

Sappiamo tutti che il mantra "la correlazione non implica il nesso di causalità" è inserito in tutti gli studenti di statistica del primo anno. Ci sono alcuni begli esempi qui per illustrare l'idea.

Ma a volte la correlazione non implica causalità. Il seguente esempio è tratto da questa pagina di Wikipedia

Ad esempio, si potrebbe eseguire un esperimento su gemelli identici noti per ottenere costantemente gli stessi voti nei loro test. Un gemello viene inviato a studiare per sei ore mentre l'altro viene inviato al parco divertimenti. Se i loro punteggi dei test divergessero improvvisamente in larga misura, questo sarebbe una prova evidente che studiare (o andare al parco di divertimenti) ha avuto un effetto causale sui punteggi dei test. In questo caso, la correlazione tra lo studio e i punteggi dei test implicherebbe quasi sicuramente la causalità.

Ci sono altre situazioni in cui la correlazione implica la causalità?


16
La correlazione e una forte ragione di fondo per un collegamento suggeriscono la causalità fino a prova contraria è probabilmente la migliore che si possa ottenere.
James,

8
Non è Karl Popper che ha detto che l'uomo non può stabilire la causalità: le teorie scientifiche sono astratte in natura. Possono essere falsificabili e il fatto che incontriamo difficoltà nel falsificare qualcosa ci fa pensare alla causalità ...
Robin Girard,

3
Interessante contro-esempio di Jaynes: abbiamo la relazione deduttiva "no clouds" implica "no rain"; eppure chi potrebbe credere che "niente nuvole" sia la causa fisica di "niente pioggia"?
Probislogic,

4
Usiamo un termine diverso da "implicare" poiché nel dizionario i suoi significati includono sia 1. Suggest che 2. Necessitate (!)
rolando2

Il gemello di questo esempio ha persino senso? Voglio dire che la causalità implicita è che le differenze tra metodi / regimi di studio causano differenze nei punteggi dei test dei gemelli. Ma è un campione di uno, e anche con un campione di grandi dimensioni, basta un gruppo di gemelli per avere la reazione opposta a infrangere l'ipotesi, stile cigno nero ... @probabilityislogic: il concetto "no clouds" ha senso? Se sì, allora non vedo perché la seconda parte non sia credibile.
naught101

Risposte:


33

La correlazione non è sufficiente per la causalità. Si può aggirare l'esempio di Wikipedia immaginando che quei gemelli hanno sempre imbrogliato nei loro test avendo un dispositivo che dà loro le risposte. Il gemello che si reca al parco divertimenti perde il dispositivo, quindi il livello basso.

Un buon modo per chiarire queste cose è pensare alla struttura della rete bayesiana che potrebbe generare le quantità misurate, come fatto da Pearl nel suo libro Causality . Il suo punto di base è cercare variabili nascoste. Se esiste una variabile nascosta che non varia nel campione misurato, la correlazione non implicherebbe la causalità. Esporre tutte le variabili nascoste e si ha una causalità.


Ho qualche difficoltà a capire perché le direzioni delle frecce in una corrispondente rete bayesiana abbiano qualche relazione con la causalità. Ad esempio, A-> B e B-> A rappresentano direzioni diverse per la causalità, ma le reti bayesiane per queste due strutture sono equivalenti
Yaroslav Bulatov,

6
Non sono equivalenti di fronte agli interventi.
Neil G

Quelle reti bayesiane sono equivalenti in un certo senso che dati dati campionati da una di esse, non si può dire quale fosse
Yaroslav Bulatov

4
Ehm ... non ho familiarità con le statistiche reali da un colpo lungo ... ma non è impossibile "esporre tutte le variabili nascoste" per definizione? Come fai a sapere quando non ci sono più variabili "nascoste"?
Craig Walker,

4
@Craig Questo è il punto; non è possibile.
Justin L.,

35

Aggiungerò solo alcuni commenti aggiuntivi sulla causalità dal punto di vista epidemiologico . La maggior parte di questi argomenti sono tratti dall'epidemiologia psichiatrica pratica , di Prince et al. (2003).

La causalità, o interpretazione della causalità , sono di gran lunga gli aspetti più difficili della ricerca epidemiologica. Gli studi di coorte e trasversali potrebbero entrambi portare ad effetti confondenti, ad esempio. Citando S. Menard ( Longitudinal Research , Sage University Paper 76, 1991), HB Asher in Causal Modeling (Sage, 1976) inizialmente propose di soddisfare i seguenti criteri:

  • I fenomeni o le variabili in questione devono essere covari, come indicato ad esempio dalle differenze tra gruppi sperimentali e di controllo o dalla correlazione diversa da zero tra le due variabili.
  • La relazione non deve essere attribuibile a nessun'altra variabile o insieme di variabili, cioè non deve essere spuria, ma deve persistere anche quando altre variabili sono controllate, come indicato ad esempio da una randomizzazione riuscita in un disegno sperimentale (nessuna differenza tra sperimentale e gruppi di controllo prima del trattamento) o mediante una correlazione parziale diversa da zero tra due variabili con altre variabili mantenute costanti.
  • La presunta causa deve precedere o essere simultanea al supposto effetto nel tempo, come indicato dal cambiamento nella causa che si verifica non oltre il cambiamento associato nell'effetto.

Mentre i primi due criteri possono essere facilmente verificati utilizzando uno studio trasversale o ordinato in base al tempo, quest'ultimo può essere valutato solo con dati longitudinali, ad eccezione delle caratteristiche biologiche o genetiche per le quali è possibile assumere l'ordine temporale senza dati longitudinali. Naturalmente, la situazione diventa più complessa in caso di una relazione causale non ricorsiva.

Mi piace anche la seguente illustrazione (capitolo 13, nel riferimento di cui sopra) che riassume l'approccio promulgato da Hill (1965) che include 9 diversi criteri relativi all'effetto causale, come citato anche da @James. L'articolo originale era infatti intitolato "L'ambiente e la malattia: associazione o causalità?" ( Versione PDF ).

Hill1965

Infine, il capitolo 2 del libro più famoso di Rothman, Modern Epidemiology (1998, Lippincott Williams & Wilkins, 2a edizione), offre una discussione molto completa sulla causalità e l'inferenza causale, sia dal punto di vista statistico che filosofico.

Vorrei aggiungere anche i seguenti riferimenti (presi approssimativamente da un corso online di epidemiologia):

Infine, questa recensione offre una prospettiva più ampia sulla modellazione causale, inferenza causale nelle statistiche: una panoramica (J Pearl, SS 2009 (3)).


18

Al centro della tua domanda c'è la domanda "quando una relazione è causale?" Non deve solo essere una correlazione che implica (o meno) una causalità.

Un buon libro su questo argomento si chiama Mostly Harmless Econometrics di Johua Angrist e Jorn-Steffen Pischke. Partono dall'ideale sperimentale in cui siamo in grado di randomizzare il "trattamento" oggetto di studio in qualche modo e poi passano a metodi alternativi per generare questa randomizzazione al fine di trarre influenze causali. Questo inizia con lo studio dei cosiddetti esperimenti naturali.

Uno dei primi esempi di esperimento naturale utilizzato per identificare le relazioni causali è il saggio di Angrist del 1989 su "Guadagni a vita e lotteria dell'era del Vietnam". Questo documento tenta di stimare l'effetto del servizio militare sugli utili a vita. Un problema chiave nella stima di qualsiasi effetto causale è che alcuni tipi di persone possono avere maggiori probabilità di arruolarsi, il che può influenzare qualsiasi misurazione della relazione. Angrist utilizza l'esperimento naturale creato dalla bozza della lotteria del Vietnam per "assegnare in modo casuale" il "servizio militare" di trattamento a un gruppo di uomini.

Quindi quando abbiamo una causalità? In condizioni sperimentali. Quando ci avviciniamo? Sotto esperimenti naturali. Ci sono anche altre tecniche che ci avvicinano alla "causalità", cioè sono molto meglio che semplicemente usare il controllo statistico. Includono discontinuità di regressione, differenza nelle differenze, ecc.


15

C'è anche un problema con il caso opposto, quando la mancanza di correlazione viene usata come prova della mancanza di causalità. Questo problema è la non linearità; quando si guarda alla correlazione, le persone di solito controllano Pearson, che è solo una punta di un iceberg.


14

Il tuo esempio è quello di un esperimento controllato . L'unico altro contesto che conosco in cui una correlazione può implicare la causalità è quello di un esperimento naturale .

Fondamentalmente, un esperimento naturale sfrutta l'assegnazione di alcuni intervistati a un trattamento che avviene naturalmente nel mondo reale. Poiché l'assegnazione degli intervistati ai gruppi di trattamento e controllo non è controllata dallo sperimentatore, la misura in cui la correlazione implicherebbe la causalità è forse più debole in una certa misura.

Vedi i collegamenti wiki per ulteriori esperimenti controllati / naturali.


12

A mio avviso, la task force statistica APA lo ha riassunto abbastanza bene

'' Inferire la causalità da progetti non randomizzati è un'impresa rischiosa. I ricercatori che utilizzano progetti non randomizzati hanno l'obbligo aggiuntivo di spiegare la logica alla base delle covariate incluse nei loro progetti e di avvisare il lettore di ipotesi rivali plausibili che potrebbero spiegare i loro risultati. Anche negli esperimenti randomizzati, l'attribuzione degli effetti causali a qualsiasi aspetto delle condizioni di trattamento richiede il supporto di ulteriori esperimenti. '' - Task Force APA


11

Il discorso del presidente di Sir Austin Bradford Hill alla Royal Society of Medicine ( The Environment and Disease: Association or Causation? ) Spiega nove criteri che aiutano a giudicare se esiste una relazione causale tra due variabili correlate o associate.

Loro sono:

  1. Forza dell'associazione
  2. Coerenza: "è stato ripetutamente osservato da persone diverse, in luoghi, circostanze e tempi diversi?"
  3. Specificità
  4. Temporalità: "qual è il carrello e qual è il cavallo?" - la causa deve precedere l'effetto
  5. Gradiente biologico (curva dose-risposta): in che modo l'entità dell'effetto dipendeva dall'entità della (sospetta) variabile causale?
  6. Plausibilità: esiste una probabile spiegazione della causalità?
  7. Coerenza: la causalità contraddirebbe altri fatti accertati?
  8. Esperimento: la manipolazione sperimentale della variabile causale (sospetta) influisce sulla variabile (sospetta) dipendente
  9. Analogia: abbiamo incontrato simili relazioni causali in passato?

9

Nell'esempio dei gemelli non è solo la correlazione che suggerisce la causalità, ma anche le informazioni associate o le conoscenze precedenti.

Supponiamo di aggiungere un'ulteriore informazione. Supponiamo che il gemello diligente abbia trascorso 6 ore a studiare per un esame statistico, ma a causa di uno sfortunato errore l'esame era nella storia. Concluderemmo ancora che lo studio è stato la causa della prestazione superiore?

Determinare la causalità è una questione tanto filosofica quanto scientifica, quindi la tendenza a invocare filosofi come David Hume e Karl Popper quando si discute di causalità.

Non sorprende che la medicina abbia contribuito in modo significativo a stabilire la causalità attraverso l'euristica, come i postulati di Koch per stabilire la relazione causale tra microbi e malattia. Questi sono stati estesi ai "postulati molecolari di Koch" richiesti per dimostrare che un gene in un patogeno codifica un prodotto che contribuisce alla malattia causata dal patogeno.

Purtroppo non posso pubblicare un collegamento ipertestuale presumibilmente perché sono un nuovo utente (non vero) e non ho abbastanza "punti reputazione". La vera ragione è l'ipotesi di nessuno.


9

La correlazione da sola non implica mai la causalità. È così semplice.

Ma è molto raro avere solo una correlazione tra due variabili. Spesso sai anche cosa sono quelle variabili e una teoria o teorie, suggerendo perché potrebbe esserci una relazione causale tra le variabili. In caso contrario, ci prendiamo la briga di cercare una correlazione? (Tuttavia, le persone che estraggono enormi matrici di correlazione per risultati significativi spesso non hanno una teoria casuale - altrimenti, perché preoccuparsi del mining. Un contro-argomento è che spesso è necessaria qualche esplorazione per ottenere idee per teorie casuali. E così via e così via ...)

Una risposta alla critica comune "Sì, ma è solo una correlazione: non implica una causalità":

  1. Per una relazione occasionale, è necessaria la correlazione. Un ripetuto fallimento nel trovare una correlazione sarebbe davvero una cattiva notizia.
  2. Non ti ho solo dato una correlazione.
  3. Quindi continua spiegando i possibili meccanismi causali che spiegano la correlazione ...

2
Un contro-esempio per il tuo punto n. 1: in un sistema caotico, potresti avere una causalità senza ovvia correlazione.
mkt - Ripristina Monica il

8

Un'utile condizione sufficiente per alcune definizioni di causalità:

La causalità può essere rivendicata quando una delle variabili correlate può essere controllata (possiamo impostare direttamente il suo valore) e la correlazione è ancora presente.


2
Potresti anche usare la parola di Pearl per "impostare direttamente il valore di [una variabile]": un intervento.
Neil G

8
  1. Quasi sempre in studi randomizzati
  2. Quasi sempre nello studio osservazionale quando qualcuno misura tutti i confusi (quasi mai)
  3. A volte quando qualcuno misura alcuni coundfounder (algoritmo IC * della scoperta di DAG nel libro Causality di Pearl)
  4. Nei modelli lineari non gaussiani con due o più variabili ma non usando la correlazione come misura della relazione ( LiNGAM )

La maggior parte degli algoritmi di rilevamento sono implementati in Tetrad IV


6

Potrebbe essere una domanda correlata: a quali condizioni è possibile estrarre in modo affidabile relazioni causali dai dati?

Un seminario NIPS del 2008 tenta di affrontare empiricamente tale questione. Uno dei compiti era inferire la direzione della causalità dalle osservazioni di coppie di variabili in cui si sapeva che una variabile ne causava un'altra e il metodo migliore era in grado di estrarre correttamente la direzione causale l'80% delle volte.


3

Quasi sicuramente in un esperimento ben progettato. (Progettato, ovviamente, per suscitare tale connessione .)


3

Supponiamo di pensare che il fattore A sia la causa del fenomeno B. Quindi proviamo a variare per vedere se B cambia. Se B non cambia e se possiamo supporre che tutto il resto rimanga invariato, prova evidente che A non è la causa di B. Se B cambia, non possiamo concludere che A sia la causa perché il cambiamento di A potrebbe aver causato un cambiamento nella causalità effettiva C, che ha fatto cambiare B.


Puoi fare variare A?
RockScience,

2

Ho notato che qui è stata usata la "prova" per discutere del paradigma empirico. Non vi è nulla di simile. Prima arriva l'ipotesi, in cui l'idea è avanzata; poi arriva il test, in "condizioni controllate" [nota a] e se si riscontra una "sufficiente" mancanza di disproof , avanza allo stadio dell'ipotesi...periodo. Non ci sono prove, a meno che non si possa 1) riuscire ad essere in ogni occasione di detto evento [nota b] e, naturalmente, 2) stabilire la causalità. 1) è improbabile in un universo infinito [non si può provare l'infinito per natura]. Nota A; nessun esperimento viene condotto in condizioni totalmente controllate e più le condizioni sono controllate, minore è la somiglianza con l'universo esterno con linee di causalità apparentemente infinite. Nota b; intendiamoci, devi aver descritto perfettamente detto "evento", che presumibilmente significa un linguaggio perfettamente corretto = presumibilmente non un linguaggio umano. Per una nota finale, ogni causalità risale presumibilmente al Primo Evento. Ora vai a parlare con tutti con una teoria. Sì, ho studiato formalmente e informalmente. Alla fine; no, la prossimità non implica nesso di causalità e neppure altro che correlazione temporanea.


1

XY

Y=BX+u

BXYE(B)=BXuE(u|X)=0u YXY

Essere imparziali è una proprietà desiderabile di uno stimatore, ma si vorrebbe anche che lo stimatore fosse efficiente (bassa varianza) e coerente (tende in probabilità al valore reale). Vedi i presupposti di Gauss-Markov.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.