La causalità implica correlazione?


118

La correlazione non implica la causalità, poiché potrebbero esserci molte spiegazioni per la correlazione. Ma la causalità implica correlazione? Intuitivamente, penso che la presenza della causalità significhi che c'è necessariamente una correlazione. Ma il mio intuito non mi ha sempre servito bene nelle statistiche. La causalità implica correlazione?


5
Il problema è che se cerchi "implica" in un dizionario vedrai sia "suggerire" che "necessitare".
rolando2,

6
La correlazione non implica una causalità, ma scuote le sopracciglia in modo suggestivo e fa un gesto furtivo mentre dice "guarda laggiù". xkcd.com/552
jchristie,

1
La domanda in sé non sembra cercare una risposta concreta specifica, come indicato dall'uso della parola. Il riferimento sopra è forse come un ultimo. O più probabilmente un ma probabilmente non posso provarlo.
jchristie,

Risposte:


96

Come hanno affermato molte delle risposte sopra, la causalità non implica una correlazione lineare . Poiché molti concetti di correlazione provengono da campi che dipendono fortemente da statistiche lineari, di solito la correlazione è vista come uguale alla correlazione lineare. L' articolo di Wikipedia è una buona fonte per questo, mi piace molto questa immagine:

Esempi di correlazione

Guarda alcune delle figure nella riga inferiore, ad esempio la forma della parabola nel 4 ° esempio. Questo è un po 'quello che succede nella risposta @StasK (con un po' di rumore aggiunto). Y può essere completamente causato da X ma se la relazione numerica non è lineare e simmetrica, si avrà comunque una correlazione di 0.

La parola che stai cercando è informazione reciproca : questa è una specie della versione generale non lineare della correlazione. In tal caso, la tua affermazione sarebbe vera: la causalità implica un'alta informazione reciproca .


3
Di solito, ma non è sempre vero, un'alta informazione reciproca accompagna la causalità. Vedi la risposta di @ gung dove "se la causa è perfettamente correlata con un'altra variabile causale con esattamente l'effetto opposto".
Neil G,

5
L'argomento di due cause con effetti opposti che si annullano sempre a vicenda non ha molto senso per me come causa . Posso sempre presumere che ci siano unicorni che causano qualcosa e che i gremlin annullano perfettamente i loro sforzi; Lo evito poiché è sciocco. Ma forse sto fraintendendo il tuo punto.
Artem Kaznatcheev,

11
Il suo esempio è più estremo di quanto deve essere. È possibile avere variabili booleane e C tali che A e B sono cause di C e C = A + B (mod 2). Quindi, in assenza di conoscenza di B , A e C non hanno informazioni reciproche. B è un confonditore da scoprire - ciò che chiamate "gremlins" anche se è qualcosa di molto comune. A,BCABCC=A+BBACB
Neil G,

2
@NielG Sono d'accordo con la tua prima frase, ma non con la seconda. Solo perché A & B causa C, non significa che A causa C e B causa C. Non vedo perché la causa debba essere distributiva su &.
Artem Kaznatcheev,

4
La ragione per cui A è comunque una causa di C è perché il cambiamento di A cambierà ancora C. Quindi, C dipende da A anche quando non osserviamo B.
Neil G

41

La risposta rigorosa è "no, la causalità non implica necessariamente una correlazione".

XN(0,1)Y=X2χ12XYXYE[X]=0E[Y]=E[X2]=1

Cov[X,Y]=E[(X0)(Y1)]=E[XY]E[X]1=E[X3]E[X]=0
usando la proprietà della distribuzione normale standard che i suoi momenti dispari sono tutti uguali a zero (si può facilmente derivare dalla sua funzione generatrice di momenti, diciamo). Quindi, la correlazione è uguale a zero.

XN(0,1)(10,10)exp(|x|)XXXXYXN(3,1)E[X]=3E[Y]=E[X2]=10E[X3]=36Cov[X,Y]=E[XY]E[X]E[Y]=3630=60XXXYχ2; puoi estrarre la varianza dalla pagina di Wikipedia e calcolare la correlazione se sei interessato.)


2
@DQdlM: la variabile casuale standard presenta momenti centrali dispari a causa della uniformità della densità. Matthew: La risposta è no, come ha dimostrato StasK, perché la correlazione non è l'unico tipo di dipendenza.
Emre,

3
XN(3,1)

3
PS Sono così felice che tu abbia pubblicato questa risposta. Era difficile credere che la domanda fosse andata così a lungo senza questa risposta. Questo è stato l'esempio esatto che mi è venuto in mente quando ho visto questa domanda, ma non ho avuto il tempo di scriverla. Sono contento che tu abbia preso il tempo. Saluti.
cardinale

3
@cardinal: sì, immagino che abbiamo imparato tutti questi tipi di semplici controesempi alla scuola elementare ... e sì, dalla derivazione della covarianza, hai solo bisogno che il primo e il terzo momento siano zero. Se hai un esempio non banale di una distribuzione asimmetrica che ha un terzo momento zero (le masse di probabilità finemente sintonizzate su cinque o sei punti non contano), sarei molto curioso di vederlo.
StasK,

3
XYfY=f(X)

31

In sostanza sì.

La correlazione non implica una causalità perché potrebbero esserci altre spiegazioni per una correlazione oltre la causa. Ma affinché A sia una causa di B devono essere associati in qualche modo . Significa che esiste una correlazione tra di loro, sebbene tale correlazione non debba necessariamente essere lineare.

Come hanno suggerito alcuni commentatori, è probabilmente più appropriato usare un termine come "dipendenza" o "associazione" anziché correlazione. Sebbene, come ho detto nei commenti, ho visto che "correlazione non significa causalità" in risposta all'analisi ben oltre la semplice correlazione lineare, e quindi ai fini del detto, ho essenzialmente esteso la "correlazione" a qualsiasi associazione tra A e B.


16
Tendo a riservare la parola correlazione per correlazione lineare e utilizzo la dipendenza per relazioni non lineari che possono o meno avere una correlazione lineare.
Memming

4
@Memming Lo farei anch'io, salvo per il fatto che le persone escogitano "La correlazione non implica la causalità" per quanto riguarda: associazione non lineare abbastanza complessa.
Fomite,

Memming ha ragione. È necessario definire la correlazione se non si intende la correlazione di Pearson.
Neil G

1
@NeilG O del resto, uno potrebbe essere in grado di ottenere una correlazione lineare di Pearson trasformando una variabile o l'altra. Il problema è che l'adagio stesso è troppo semplificato.
Fomite,

1
@EpiGrad: entrambi i punti positivi. Nel linguaggio comune, la correlazione è solo più di A coincide con più B. Penso che la tua risposta trarrebbe beneficio dal rendere chiaro il tuo uso di un'ampia definizione di correlazione.
Neil G,

23

Aggiungendo alla risposta di @EpiGrad. Penso che, per molte persone, la "correlazione" implichi la "correlazione lineare". E il concetto di correlazione non lineare potrebbe non essere intuitivo.

Quindi, direi "no, non devono essere correlati ma devono essere correlati ". Siamo d'accordo sulla sostanza, ma non siamo d'accordo sul modo migliore per far passare la sostanza.

Un esempio di tale causalità (almeno le persone pensano che sia causale) è quello tra la probabilità di rispondere al telefono e il reddito. È noto che le persone ad entrambe le estremità dello spettro di reddito hanno meno probabilità di rispondere ai loro telefoni rispetto alle persone nel mezzo. Si ritiene che il modello causale sia diverso per i poveri (ad es. Evitare gli esattori) e per i ricchi (ad es. Evitare le persone che chiedono donazioni).


21

XY

Considera il seguente modello causale:

XYU

XUY

Adesso molla:

Xbernoulli(0.5)Ubernoulli(0.5)Y=1XU+2XU

UP(Y|X)=P(Y)XYYX qui.

XUYXUXYUY {X,U}YXYXYXYXYU

Quindi in breve direi che: (i) la causalità suggerisce dipendenza; ma, (ii) la dipendenza è dipendenza funzionale / strutturale e può o meno tradursi nella specifica dipendenza statistica a cui state pensando.


Carlos, è corretto affermare che se conosciamo l'intero insieme di variabili coinvolte nel modello causale questo problema (invisibilità statistica) scompare?
Markowitz,

@markowitz dovresti osservare tutto a livello deterministico, quindi non uno scenario molto realistico.
Carlos Cinelli,

Interpreto la tua risposta come "sì". Hai ragione, la situazione che suppongo sia irrealistica; Ne sono consapevole. Tuttavia, la domanda riguardava solo la logica che hai descritto e la finalità era di afferrarla. La mia convinzione era qualcosa come "la causalità implica un'associazione statistica" e le altre risposte in questa pagina sembrano così. Dopotutto anche il tuo esempio è leggermente irrealistico, ma non per questo poco interessante. Mi sembra che, anche in generale, la causalità senza associazione statistica sia leggermente irrealistica ma teoricamente interessante.
Markowitz,

1
@markowitz l '"invisibilità statistica" si verifica quando il modello non è fedele al grafico. Per l'annullamento esatto, questo dipende da una specifica scelta di parametrizzazione, quindi alcune persone sostengono che è davvero improbabile. Tuttavia, l'annullamento prossimo potrebbe essere plausibile poiché dipende da un quartiere di parametri, quindi tutto dipende dal contesto. Il punto qui è solo che devi rendere esplicite le tue ipotesi causali perché, logicamente, la causalità non implica un'associazione da sola - hai bisogno di ipotesi extra.
Carlos Cinelli,

13

La causa e l'effetto verranno correlati meno che non c'è variazione affatto nell'incidenza e la grandezza della causa e nessuna variazione affatto nella sua forza causale. L'unica altra possibilità sarebbe se la causa fosse perfettamente correlata con un'altra variabile causale con esattamente l'effetto opposto. Fondamentalmente, queste sono condizioni di esperimento mentale. Nel mondo reale, la causalità implica dipendenza in qualche forma (anche se potrebbe non essere una correlazione lineare ).


3
@NeilG, ho lasciato andare la mia dipendenza dal corsivo .
gung

1
Alcune teorie lo implicano, ad esempio molti modelli di teoria dei giochi. Alcune situazioni empiriche in cui non si può discernere una differenza (anche se in realtà ci sarebbe uno "in corsivo" per così dire :-) includono scenari "neutri" senza cambiamento genetico quando la pressione evolutiva di selezione a due livelli punta in direzioni diverse.
conjugateprior

1
Mi piace la prima eccezione, ma non la seconda. Mi piace pensare che premendo l'interruttore si accenda la luce, ma se accendo l'interruttore solo durante un blackout non succede nulla. Forse non c'era davvero una relazione causale.
emory

1
@ naught101, sollevi un buon punto, che è stato discusso altrove in questa pagina. Ho modificato la mia risposta. Tuttavia, quando ho lavorato con le persone, non penso che abbiano una forte concezione della correlazione come necessariamente lineare, anche se glielo dico. Sebbene non lo metterebbero in questi termini, penso che molte persone capiscano che la "correlazione" è più vicina alla "funzione di". Tuttavia, dovrei essere più chiaro nel mio uso dei termini e avrei dovuto essere dall'inizio.
gung

2
@emoria: la causa della luce che si accende è in realtà la chiusura del circuito elettrico (che è causata dallo sfarfallio dell'interruttore, con le condizioni ambientali inclusa una griglia funzionante). Durante un blackout, premendo l'interruttore non si chiude il circuito, perché è rotto altrove. Quindi, in un certo senso, il blackout è l'effetto "opposto" di cui parlava il gung (cioè la luce è accesa, il blackout lo spegne). Potrebbe anche essere pensato come un effetto annullante.
naught101

2

Ci sono ottime risposte qui. Artem Kaznatcheev , Fomite e Peter Flom sottolineano che la causalità di solito implicherebbe dipendenza piuttosto che correlazione lineare. Carlos Cinelli dà un esempio in cui non c'è dipendenza, a causa di come è impostata la funzione di generazione.

Voglio aggiungere un punto su come questa dipendenza possa scomparire in pratica, nei tipi di set di dati con cui potresti benissimo lavorare. Situazioni come l'esempio di Carlos non si limitano a semplici "condizioni di esperimento mentale".

Le dipendenze svaniscono nei processi di autoregolazione . L'omeostasi, ad esempio, garantisce che la temperatura corporea interna rimanga indipendente dalla temperatura ambiente. Il calore esterno influenza direttamente la temperatura corporea, ma influenza anche i sistemi di raffreddamento del corpo (ad es. Sudorazione) che mantengono stabile la temperatura corporea. Se campioniamo la temperatura a intervalli estremamente rapidi e utilizziamo misurazioni estremamente precise, abbiamo la possibilità di osservare le dipendenze causali, ma alle normali frequenze di campionamento, la temperatura corporea e la temperatura esterna appaiono indipendenti.

I processi di autoregolazione sono comuni nei sistemi biologici; sono prodotti dall'evoluzione. I mammiferi che non riescono a regolare la temperatura corporea vengono rimossi per selezione naturale. I ricercatori che lavorano con dati biologici dovrebbero essere consapevoli che le dipendenze causali possono svanire nei loro set di dati.


-3

Una causa senza alcuna correlazione non sarebbe un rng?

A meno che, come suggerisce la risposta accettata, stai usando un'interpretazione incredibilmente limitata della parola "correlazione", è una domanda stupida: se una cosa "causa" un'altra, è per definizione influenzata da essa in qualche modo, sia che si tratti di aumento della popolazione, o solo intensità.

giusto?

Poi di nuovo, potresti discutere di qualcosa di più simile alla visibilità di qualcosa che è influenzata da qualcos'altro, che immagino sembrerebbe una causalità, ma in realtà non stai misurando ciò che pensi di misurare ...

Quindi sì, immagino che la risposta breve sarebbe: "Sì, purché tu non possa creare entropia".

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.