Se la "correlazione non implica la causalità", se trovo una correlazione statisticamente significativa, come posso provare la causalità?


30

Capisco che la correlazione non è causalità . Supponiamo di avere un'alta correlazione tra due variabili. Come controllate se questa correlazione è effettivamente dovuta alla causalità? Oppure, a quali condizioni, esattamente, possiamo usare i dati sperimentali per dedurre una relazione causale tra due o più variabili?


2
Richiederà dati sperimentali. Descrivi il disegno sperimentale a cui ti riferisci.
Frank Harrell,

1
Signore, non ho dati sperimentali. Volevo capire che tipo di esperimenti controllati devono essere eseguiti per dedurre la causalità?
Manish Barnwal,

4
Esistono molti progetti possibili. In breve, si tenta di controllare fisicamente tutte le altre variabili e di variare un fattore di interesse oppure di randomizzare l'applicazione della manipolazione sperimentale, che "fa la media" degli effetti di tutte le altre possibili spiegazioni.
Frank Harrell,

2
In breve, hai bisogno di variazioni esogene di qualche tipo.
abaumann,

1
Tra correlato Xe Yseleziona quello come causa dell'altro che minimizzerà il sentimento di responsabilità e massimizzerà il sentimento del destino.
ttnphns,

Risposte:


16

Un motivo molto probabile per la correlazione di 2 variabili è che le loro modifiche sono collegate a una terza variabile. Altre probabili ragioni sono la possibilità (se si verificano abbastanza variabili non correlate per la correlazione, alcune mostreranno una correlazione) o meccanismi molto complessi che coinvolgono più passaggi.

Vedi http://tylervigen.com/ per esempi come questo:

inserisci qui la descrizione dell'immagine

Per affermare con sicurezza la causa di A -> B, è necessario un esperimento in cui è possibile controllare la variabile A e non influenzare le altre variabili. Quindi si misura se la correlazione di A e B esiste ancora se si modifica la variabile.

Per quasi tutte le applicazioni pratiche, è quasi impossibile non influenzare anche altre variabili (spesso sconosciute), quindi il meglio che possiamo fare è dimostrare l'assenza di causalità.

Per essere in grado di affermare una relazione causale, inizi con l'ipotesi che 2 variabili abbiano una relazione causale, usi un esperimento per confutare l'ipotesi e se fallisci, puoi affermare con un certo grado che l'ipotesi è vera. Quanto alto deve essere il tuo grado di certezza dipende dal tuo campo di ricerca.

In molti campi è comune o necessario eseguire 2 parti dell'esperimento in parallelo, una in cui la variabile A viene modificata e un gruppo di controllo in cui la variabile A non viene modificata, ma l'esperimento è esattamente lo stesso, ad esempio in caso di medicina ancora attaccare i soggetti con un ago o farli ingoiare pillole. Se l'esperimento mostra una correlazione tra A e B, ma non tra A e B '(B del gruppo di controllo), puoi assumere la causalità.

Esistono anche altri modi per concludere la causalità, se un esperimento non è possibile o sconsigliabile per vari motivi (morale, etica, PR, costo, tempo). Un modo comune è usare la detrazione. Prendendo un esempio da un commento: per dimostrare che il fumo provoca il cancro negli esseri umani, possiamo usare un esperimento per dimostrare che il fumo provoca il cancro nei topi, quindi dimostrare che esiste una correlazione tra fumo e cancro negli esseri umani e dedurre che quindi è estremamente è probabile che il fumo causi il cancro nell'uomo: questa prova può essere rafforzata se confutiamo anche che il cancro provoca il fumo. Un altro modo per concludere la causalità è l'esclusione di altre cause della correlazione, lasciando la causalità come la migliore spiegazione rimanente della correlazione: questo metodo non è sempre applicabile, perché a volte è impossibile eliminare tutte le possibili cause della correlazione (chiamate "percorsi back-door" in un'altra risposta). Nell'esempio del fumo / cancro, probabilmente potremmo usare questo approccio per dimostrare che il fumo è responsabile del catrame nei polmoni, perché non ci sono molte possibili fonti per questo.

Questi altri modi di "provare" la causalità non sono sempre ideali da un punto di vista scientifico, perché non sono così conclusivi come un esperimento più semplice. Il dibattito sul riscaldamento globale è un ottimo esempio per mostrare come sia molto più facile respingere la causalità che non è stata ancora dimostrata in modo conclusivo con un esperimento ripetibile.

Per un sollievo comico, ecco un esempio di esperimento tecnicamente plausibile, ma non consigliabile per motivi non scientifici (morale, etica, PR, costo):

Immagine tratta da phroyd.tumblr.com


3
Questa è una condizione troppo forte. In epidemiologia, i requisiti sono meno rigidi perché il controllo di un esperimento è nella migliore delle ipotesi poco pratico, e nel peggiore dei casi non etico - "il fumo di sigaretta provoca il cancro"
user295691

2
L'esempio fornito da Pearl per dimostrare che il fumo provoca il cancro negli esseri umani è il metodo della porta d'ingresso in base al quale il catrame è visto come una variabile intermedia tra fumo e cancro. Non so cosa intendi con "non ideale". È sicuramente più ideale che costringere le persone a fumare e vedere se si ammalano di cancro!
Neil G,

1
@Neil "È sicuramente più ideale che forzare le persone a fumare e vedere se si ammalano di cancro" - Se l'obiettivo è dimostrare una relazione causale, sono in forte disaccordo. D'altra parte, se l'obiettivo è quello di evitare un problema etico, finanziamenti ridotti o un linciaggio, allora è più ideale, sì.
Peter,

10

Indipendentemente dal fatto che il disegno sia sperimentale o osservativo, un'associazione tra una variabile A e un risultato Y riflette una relazione causale tra A e Y se non ci sono percorsi backdoor aperti tra A e Y.

In un progetto sperimentale, questo è più facilmente raggiungibile dalla randomizzazione dell'esposizione o dell'assegnazione del trattamento. Escludendo la randomizzazione ideale, l'effetto del trattamento associativo è una stima imparziale dell'effetto del trattamento causale sotto i presupposti della scambiabilità (l'assegnazione del trattamento è indipendente dagli esiti controfattuali), positività, ecc ...

Riferimenti

Hernan, Robins. Perla causale dell'inferenza
. Inferenza causale in statistica: una panoramica

PS Puoi cercare in Google Causal Inference e i seguenti nomi (per cominciare) per ulteriori informazioni sull'argomento: Judea Pearl, Donald Rubin, Miguil Hernan.


Dai un'occhiata qui: en.wikipedia.org/wiki/Correlation_does_not_imply_causation Sono in contraddizione con l'affermazione di Ash: Indipendentemente dal fatto che il design sia sperimentale o osservativo, un'associazione tra una variabile A e un risultato Y riflette una relazione causale tra A e Y se ci sono nessun percorso di backdoor aperto tra A e Y. Ad esempio vendite di gelati, morti Y in piscine; sono correlati, ma la causa per cui aumentano o diminuiscono è la temperatura. Forse Ash significa con percorsi backdoor aperti entrambi dipendenti da una terza variabile, ma quindi la sua formulazione non è chiara.
Karl,

Il percorso della backdoor nel tuo esempio è la stagione. Un percorso backdoor indica una terza variabile.
Neil G,

Per coloro che non hanno familiarità con i contributi di Judea Pearl allo studio della causalità, potrebbe essere utile leggere la sua biografia dal sito web dell'Association for Computing Machinery, che gli ha assegnato il Turing Award 2011. Pearl discute della necessità di includere ulteriori discussioni sull'inferenza causale nei curricula dell'educazione statistica in un'intervista con Amstat News .
jthetzel,

I commenti non sono per una discussione estesa; questa conversazione è stata spostata in chat .
gung - Ripristina Monica

3

Considera un aumento del tasso di divorzi, correlato con un aumento del reddito degli avvocati.

Intuitivamente sembra ovvio che questi parametri debbano essere correlati. Più coppie (richiesta) chiedono più divorzi, quindi più avvocati (offerta) aumentano i loro prezzi.

Sembra che un aumento del tasso di divorzi provochi un aumento del reddito degli avvocati, perché la domanda aggiuntiva delle coppie ha causato un aumento dei prezzi degli avvocati.

Oppure è al contrario? E se gli avvocati aumentassero intenzionalmente e indipendentemente i loro prezzi, quindi spendessero i loro nuovi guadagni in pubblicità di divorzio? Anche questa sembra una spiegazione plausibile.

Questo scenario illustra il numero arbitrario di terze variabili esplicative che un'analisi statistica può mostrare. Considera quanto segue:

  1. Non è possibile misurare ogni punto dati,
  2. Vuoi eliminare ogni punto dati non esplicativo,
  3. Puoi solo giustificare il motivo per cui eliminare un punto dati se lo misuri.

Hai un enigma. Non è possibile misurare ogni punto dati, se si desidera giustificare l'ignoranza di punti dati non esplicativi, è necessario misurarli. (È possibile eliminare alcuni datapoints senza misurarli, ma è necessario almeno le giustificano.)

Nessuna prova di causalità può essere corretta in un sistema illimitato.


2

Se A e B sono correlati e dopo aver escluso la coincidenza, è molto probabile che A causi B, o B causi A, o qualche causa X forse sconosciuta causi sia A che B.

Il primo passo sarebbe quello di esaminare un possibile meccanismo. Potresti pensare a come A potrebbe il caso B, o viceversa, o che tipo di altra causa X potrebbe causare entrambe? (Ciò presuppone che questo esame sia più economico rispetto all'esecuzione di un esperimento che prova a dimostrare una causa). Spero che finirai in una posizione in cui un esperimento per mostrare la causalità sembra utile. Si può procedere se non si può pensare ad un meccanismo di (A causa B ma non abbiamo idea del perché è una possibilità).

In quell'esperimento, devi essere in grado di manipolare la causa sospetta a piacimento (ad esempio se la causa è "prendere la pillola A", allora alcune persone prenderanno la pillola, altri no). Quindi prendi le solite precauzioni, selezionando le persone che prendono o non prendono la pillola a caso, senza che tu né quelli testati sappiano chi ha preso la pillola e chi no. Cerchi anche di mantenere uguale il resto dell'esperimento (dare la pillola A alle persone in una bella stanza calda con il sole che entra dalla finestra mentre l'altro gruppo ottiene una pillola falsa in una stanza sporca e scomoda, potrebbe influenzare i tuoi dati). Quindi, se hai concluso che l'unica differenza è quella pillola e la causa per ottenere o meno la pillola è stata una decisione casuale che non ha influito su nient'altro,


2

I dati interventistici (sperimentali) come descritti da Gnasher e Peter sono il modo più semplice per fare un buon caso per una relazione causale. Tuttavia, solo la risposta di Ash menziona la possibilità di dedurre una relazione causale tramite dati osservativi. Oltre al metodo backdoor che menziona, il metodo della porta d'ingresso è un altro modo per stabilire la causalità sulla base di dati osservativi e alcune ipotesi causali. Questi sono stati scoperti dalla Giudea Perla. Ho cercato di riassumere e fornire un riferimento a questi qui .


0

Per fare un'affermazione causale, devi avere sia il campionamento casuale che l'assegnazione casuale

  • Campionamento casuale: ogni individuo ha la stessa probabilità di essere selezionato per lo studio
  • Assegnazione casuale: ogni individuo nell'esperimento mostra un tratto leggermente diverso.

Quindi, quando si seleziona un trattamento e un gruppo di controllo dal gruppo sopra campionato, un uguale numero di persone con un tratto simile dovrebbe essere sia nel trattamento che nel gruppo di controllo.

Il gruppo di trattamento è il gruppo in cui il medicinale viene somministrato alle persone. Il gruppo di controllo è il gruppo in cui non viene somministrato il medicinale. È inoltre possibile definire un gruppo placebo in cui ai soggetti non viene somministrato un medicinale ma viene detto loro che vengono somministrati.

Infine, se gli effetti sono visibili nel gruppo di trattamento ma non nel gruppo di controllo, allora possiamo stabilire la causa.


Secondo me, il gruppo placebo è assolutamente necessario. Inoltre, le persone responsabili della gestione dei soggetti del test non devono sapere chi è in quale gruppo ("doppio cieco"). Qualcosa di meno lo considererei sicuramente inaffidabile. Il test non è facile.
Mafu,

Gli studi randomizzati controllati con placebo sono più autentici degli studi randomizzati controllati, ma è possibile che vengano fatte dichiarazioni causali utilizzando studi controllati randomizzati
show_stopper,

2
"Per fare un'affermazione causale devi avere sia il campionamento casuale che l'assegnazione casuale" - questo non è vero. Vedi i metodi della porta principale e della porta posteriore.
Neil G,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.