Esempi di insegnamento: la correlazione non significa causalità


74

C'è un vecchio detto: "La correlazione non significa causalità". Quando insegno, tendo a usare i seguenti esempi standard per illustrare questo punto:

  1. numero di cicogne e tasso di natalità in Danimarca;
  2. numero di sacerdoti in America e alcolismo;
  3. all'inizio del XX secolo è stato osservato che esisteva una forte correlazione tra "Numero di radio" e "Numero di persone nei manicomi"
  4. e il mio preferito: i pirati causano il riscaldamento globale .

Tuttavia, non ho riferimenti per questi esempi e, sebbene divertenti, sono ovviamente falsi.

Qualcuno ha altri buoni esempi?


2
Sfoglia Freakonomics per alcuni grandi esempi. La loro bibliografia è piena zeppa di riferimenti.
Stephen Turner,


5
Quella tabella dei pirati / riscaldamento globale è chiaramente elaborata dai teorici della cospirazione: chiunque può vedere di aver deliberatamente tracciato una spaziatura uniforme per periodi di tempo ineguali per evitare di mostrare il recente forte aumento della temperatura mentre i pirati vengono quasi completamente spazzati via. Sappiamo tutti che quando le temperature aumentano fa evaporare il rum e i pirati non possono sopravvivere a quelle condizioni. ;-)
AdamV,

4
WTF ha l'asse x su quel grafico pirata?
nulla101

1
O praticamente qualsiasi cosa tu abbia inserito in Google Correlate , vieni a quello.
coniugato

Risposte:


39

Potrebbe essere utile spiegare che "cause" è una relazione asimmetrica (X cause Y è diversa da Y cause X), mentre "è correlato a" è una relazione simmetrica.

Ad esempio, la popolazione di senzatetto e il tasso di criminalità potrebbero essere correlati, in quanto entrambi tendono ad essere alti o bassi nelle stesse località. È ugualmente valido affermare che la popolazione di senzatetto è correlata al tasso di criminalità o che il tasso di criminalità è correlato alla popolazione di senzatetto. Dire che il crimine provoca senzatetto o che le popolazioni senzatetto causano il crimine sono dichiarazioni diverse. E la correlazione non implica che nessuno dei due sia vero. Ad esempio, la causa sottostante potrebbe essere una terza variabile come l'abuso di droghe o la disoccupazione.

La matematica della statistica non è in grado di identificare le cause sottostanti, il che richiede qualche altra forma di giudizio.


3
Il giudizio è una buona parola, poiché tutto ciò che possiamo mai osservare è correlazione. Tutto ciò che esperimenti e / o statistiche intelligenti possono fare è consentirci di escludere alcune spiegazioni alternative per ciò che avrebbe potuto causare un effetto.
Jonas,

Ottimo commento sulle relazioni simmetriche / asimmetriche. Si potrebbe anche affermare che il riscaldamento globale fa aumentare la pirateria.
Andre Holzner,

27

I miei preferiti:

1) Più vigili del fuoco vengono inviati a un incendio, maggiore sarà il danno.

2) I bambini che ricevono il tutorato ottengono voti peggiori rispetto ai bambini che non ricevono il tutoraggio

e (questa è la mia prima)

3) Nei primi anni delle scuole elementari, il segno zodiacale è correlato al QI, ma questa correlazione si indebolisce con l'età e scompare dall'età adulta.


2
(@xmjx Ho fornito il primo esempio l'anno scorso.) Adoro l'esempio di astrologia.
whuber

Puoi spiegare il campione con un segno zodiacale per favore?
Eugene D. Gubenkov,

2
Non importa, ho capito. Ciò ha a che fare con la differenza di età tra i nati all'inizio dell'anno e quelli nati alla fine. Bello.
Eugene D. Gubenkov,

24

Mi è sempre piaciuto questo:

limoni vs morti

fonte: http://pubs.acs.org/doi/abs/10.1021/ci700332k


1
Bello, ma non riesco a vedere nessuno che cerchi di trarre una conclusione di causalità lì. O i conducenti di camion dei limoni messicani sono notoriamente pericolosi quando superano il confine?
AdamV,

2
Ovviamente un effetto collaterale imprevisto della profusione delle leggi sul limone negli Stati Uniti. Ad esempio vedi: en.wikipedia.org/wiki/Lemon_law
Thylacoleo

11
Un mio collega ha esaminato i dati per questo nel periodo post 2000, e ha scoperto che la relazione era abbastanza "fuori campione", il che è ancora più inquietante ...
Shabbychef


Una semplice razionalizzazione sarebbe che entrambi stanno diminuendo nel tempo. I dati post-2000 lo supportano? PS, Box Hunter e Hunter (vedi sotto) spiegano l'esempio delle cicogne allo stesso modo: entrambi sono aumentati nel tempo durante il periodo in questione.
Emil Friedman,

23
  1. A volte la correlazione è sufficiente. Ad esempio, nell'assicurazione auto, i conducenti maschi sono correlati con più incidenti, quindi le compagnie assicurative li caricano di più. Non è possibile testarlo per la causa. Non è possibile modificare i sessi dei driver in modo sperimentale. Google ha fatto centinaia di miliardi di dollari senza preoccuparsi della causalità.

  2. Per trovare la causalità, in genere sono necessari dati sperimentali, non dati osservativi. Anche se, in economia, usano spesso "shock" osservati nel sistema per verificare la causalità, come se un CEO dovesse morire improvvisamente e il prezzo delle azioni salisse, si può ipotizzare una causalità.

  3. La correlazione è una condizione necessaria ma non sufficiente per la causalità. Per mostrare la causalità è necessario un controfattuale.


1
Mi piace il primo esempio che dai. Ciò farà sicuramente parlare gli studenti;)
csgillespie,

1
C'è un'interessante discussione di Steve Steinberg sul suo blog qui: blog.steinberg.org/?p=11 su alcune delle implicazioni di 1 e dove potrebbe portare in termini di AI debole.
Amos,

Qualcuno potrebbe ampliare un po 'l'ultima frase?
nulla101

4
X(1,1)Y(0,1)Y=1X2XsXY

18

Ho alcuni esempi che mi piace usare.

  1. Durante le indagini sulla causa del crimine a New York City negli anni '80, quando stavano cercando di ripulire la città, un accademico ha trovato una forte correlazione tra la quantità di reati gravi commessi e la quantità di gelato venduti dai venditori ambulanti! (Qual è la causa e qual è l'effetto?) Ovviamente, c'era una variabile non osservata che causava entrambi. Le estati sono quando il crimine è il più grande e quando viene venduta la maggior parte del gelato.

  2. La dimensione del tuo palmo è negativamente correlata a quanto tempo vivrai (davvero!). In effetti, le donne tendono ad avere i palmi più piccoli e vivono più a lungo.

  3. [Il mio preferito] Ho sentito parlare di uno studio alcuni anni fa che ha scoperto che la quantità di soda che una persona beve è positivamente correlata alla probabilità di obesità.(Ho detto a me stesso - questo ha senso poiché deve essere dovuto al fatto che le persone bevono la soda zuccherata e ottengono tutte quelle calorie vuote.) Pochi giorni dopo sono venuti fuori ulteriori dettagli. Quasi tutta la correlazione era dovuta ad un aumento del consumo di bibite dietetiche. (Questo ha fatto esplodere la mia teoria!) Quindi, da che parte è la causalità? Le bibite dietetiche fanno ingrassare o un aumento di peso provoca un aumento del consumo di bibite dietetiche? (Prima di concludere che è quest'ultimo, vedi lo studio in cui esperimenti controllati con i ratti hanno mostrato che il gruppo che è stato alimentato con uno yogurt con edulcorante artificiale ha guadagnato più peso rispetto al gruppo che è stato alimentato con lo yogurt normale.) Due riferimenti: Bere più dieta Soda , Guadagnare più peso? ; Bevande dietetiche legate all'obesità. Penso che stiano ancora cercando di risolvere questo.


4
L'ultimo è leggermente più complicato di quanto tu lo presenti, ma sono d'accordo che molte delle associazioni osservative trovate tra soda / dieta soda e obesità dovrebbero essere esaminate con un occhio critico. Teoricamente alcuni hanno ipotizzato che i falsi sostituti dello zucchero / del grasso abbiano altri effetti fisiologici oltre al semplice apporto calorico. Vedi ad esempio questo esperimento su ratti e grassi sintetici (tratto dal blog di Freakonomics).
Andy W,

18

Il numero di premi Nobel vinti da un paese (adattandosi alla popolazione) si correla bene con il consumo di cioccolato pro capite. ( New England Journal of Medicine )

inserisci qui la descrizione dell'immagine


2
+1 Sono stato molto deluso dal NEJM quando hanno pubblicato questo
MattBagg il

5
Sembra anche correlarsi abbastanza bene con la vicinanza con la Svezia ..
nought101

2
Anche il consumo di cioccolato (pro capite) è significativamente correlato al numero pro capite di assassini seriali. replicatedtypo.com/…
Harvey Motulsky,

2
Ho chiesto a tre vincitori del premio Nobel che (vagamente) conosco, e tutti e tre hanno detto di aver mangiato molto più cioccolato della maggior parte dei loro colleghi. Naturalmente, queste risposte sono arrivate dopo aver letto il documento del NEJM!
Harvey Motulsky,

4
@MattBagg Questo è stato pubblicato come "Occasional Notes" e ovviamente da non prendere sul serio.
Pascal,


9

Ci sono due aspetti di questo problema post hoc ergo propter che mi piace trattare: (i) causalità inversa e (ii) endogeneità

Un esempio di "possibile" causalità inversa: bere sociale e guadagni - i bevitori guadagnano più soldi secondo Bethany L. Peters ed Edward Stringham (2006. "Nessuna bevanda? Potresti perdere: perché i bevitori guadagnano più soldi dei non bevitori", Journal of Labour Research, Transaction Publishers, vol. 27 (3), pagine 411-421, giugno). Oppure le persone che guadagnano più denaro bevono di più o perché hanno un reddito disponibile maggiore o a causa dello stress? Questo è un ottimo documento da discutere per ogni sorta di ragioni tra cui errore di misurazione, distorsione di risposta, causalità, ecc.

Un esempio di "possibile" endogeneità: The Mincer Equation spiega i guadagni dei registri per istruzione, esperienza ed esperienza al quadrato. C'è una lunga letteratura su questo argomento. Gli economisti del lavoro vogliono stimare la relazione causale dell'educazione ai guadagni, ma forse l'educazione è endogena perché la "capacità" potrebbe aumentare la quantità di istruzione di un individuo (abbassando il costo di ottenerlo) e potrebbe portare ad un aumento dei guadagni, indipendentemente da il livello di istruzione. Una potenziale soluzione a questo potrebbe essere una variabile strumentale. Il libro di Angrist e Pischke, Mostly Harmless Econometrics, tratta questo argomento e mette in relazione gli argomenti con grande dettaglio e chiarezza.

Altri esempi sciocchi per i quali non ho alcun supporto sono: - Numero di televisori pro capite e numeri del tasso di mortalità. Quindi inviamo TV ai paesi in via di sviluppo. Ovviamente entrambi sono endogeni a qualcosa come il PIL. - Numero di attacchi di squalo e vendita di gelati. Entrambi sono endogeni alla temperatura forse?

Mi piace anche raccontare la terribile battuta sul pazzo e sul ragno. Un pazzo vaga per i corridoi di un manicomio con un ragno che porta nel palmo della sua mano. Vede il dottore e dice "Guarda Doc, posso parlare con i ragni. Guarda questo." Ragno, vai a sinistra! "Il ragno si sposta debitamente a sinistra. Continua," Ragno, vai a destra ". Il ragno si trascina verso il destra del suo palmo. Il dottore risponde: "Interessante, forse dovremmo parlarne nella prossima sessione di gruppo." La pazza ribatte, "Non è niente doc. Guarda questo. "Si toglie una delle gambe del ragno una per una e poi grida:" Ragno, vai a sinistra! "Il ragno giace immobile sul suo palmo e il folle si gira dal dottore e conclude," Se togli un ragno le gambe diventerà sordo. "


8

Il migliore che mi è stato insegnato è stato il numero di annegamenti e le vendite di gelati possono essere altamente correlate, ma ciò non implica che l'una causi l'altra. Gli annegamenti e le vendite di gelati sono ovviamente più alti nei mesi estivi quando il tempo è buono. La terza variabile nota anche come bel tempo li provoca.


6

Come generalizzazione dei "pirati che causano il riscaldamento globale": scegli due quantità che sono (monotonicamente) in aumento o in diminuzione nel tempo e dovresti vedere qualche correlazione.


6

Puoi dedicare qualche minuto a Google Correlate e trovare tutti i tipi di correlazioni spurie.


1
Sebbene questo collegamento possa rispondere alla domanda, è meglio includere qui le parti essenziali della risposta e fornire il collegamento come riferimento. Le risposte di solo collegamento possono diventare non valide se la pagina collegata cambia.
gung - Ripristina Monica

1
@gung sei serio? Il collegamento è a un'applicazione, non a una semplice pagina che descrive una risposta. La risposta diventerebbe non valida se la pagina collegata cambia comunque, poiché lo strumento diventerebbe non disponibile (nel modulo corrente).
Jerome Baum,

6

Lavoro con gli studenti nell'insegnamento di correlazione vs causalità nelle mie lezioni di Algebra One. Esaminiamo molti possibili esempi. Ho trovato utile l'articolo Bundled-Up Babies and Dangerous Ice Cream: Correlation Puzzlers from the Mathematics Teacher del febbraio 2013. Mi piace l'idea di parlare di "variabili in agguato". Anche questo cartone animato è un simpatico avviatore di conversazione:

inserisci qui la descrizione dell'immagine

Identifichiamo la variabile indipendente e dipendente nel fumetto e parliamo se questo è un esempio di causalità, se no perché no.


4

Ho letto (molto tempo fa) un esempio interessante di un declino dei tassi di natalità (o dei tassi di fertilità se preferite quella misura) specialmente negli Stati Uniti, a partire dai primi anni '60, poiché i test sulle armi nucleari erano ai massimi storici (nel 1961 la più grande bomba nucleare mai fatta esplodere fu messa alla prova in URSS). I tassi continuarono a delinearsi fino alla fine del ventesimo secolo quando la maggior parte dei conti alla fine smise di farlo.

Non riesco a trovare un riferimento che combini queste cifre ora, ma questo articolo di Wikipedia ha dati sui numeri dei test sulle armi nucleari per paese.

Naturalmente, potrebbe essere più sensato esaminare la correlazione del tasso di natalità con l'introduzione e la legalizzazione della pillola contraccettiva "per coincidenza" a partire dall'inizio degli anni '60. (Solo in alcuni stati prima, poi in tutti gli stati solo per le donne sposate, poi in alcuni per i non sposati, poi su tutta la linea), ma anche quello potrebbe essere solo una parte della causa; molti altri aspetti di uguaglianza, cambiamenti economici e altri fattori svolgono un ruolo significativo.


Esempio interessante, perché a prima vista sembra una probabile relazione causa-effetto, a differenza di molti degli esempi più sciocchi.
Bossykena,

1
Quello che mi piace è che puoi suscitare molte discussioni sul fatto che l '"effetto" fosse effettivamente influenzare la fertilità (in un senso medico della capacità di concepire) o era sociale ("Non voglio portare un bambino in questo male mondo"). Quindi rilascia la bomba sulla pillola se nessun altro l'ha sollevata. E poi fai notare che anche questo può essere solo un possibile fattore e discuti alcuni degli altri.
AdamV,

4

Una correlazione da sola non può mai stabilire un nesso causale. David Hume (1771-1776) argomentò abbastanza efficacemente che non possiamo ottenere una certa conoscenza della cauasalità con mezzi puramente empirici. Kant ha tentato di affrontare questo, la pagina di Wikipedia per Kant sembra riassumere abbastanza bene:

Kant credeva di creare un compromesso tra empiristi e razionalisti. Gli empiristi credevano che la conoscenza fosse acquisita solo attraverso l'esperienza, ma i razionalisti sostenevano che tale conoscenza è aperta al dubbio cartesiano e che solo la ragione ci fornisce conoscenza. Kant sostiene, tuttavia, che l'uso della ragione senza applicarla all'esperienza porterà solo a illusioni, mentre l'esperienza sarà puramente soggettiva senza essere prima inclusa nella ragione pura.

In altre parole, Hume ci dice che non possiamo mai sapere che esiste una relazione causale solo osservando una correlazione, ma Kant suggerisce che potremmo essere in grado di usare la nostra ragione per distinguere tra correlazioni che implicano un legame causale da quelli che non lo fanno. Non credo che Hume non sarebbe stato d'accordo, fintanto che Kant avrebbe scritto in termini di plausibilità piuttosto che di certe conoscenze.

In breve, una correlazione fornisce prove circostanziali che implicano un nesso causale, ma il peso delle prove dipende molto dalle circostanze particolari coinvolte e non possiamo mai essere assolutamente sicuri. La capacità di prevedere gli effetti degli interventi è un modo per acquisire fiducia (non possiamo provare nulla, ma possiamo confutare mediante prove osservazionali, quindi abbiamo almeno tentato di falsificare la teoria di un nesso causale). Avere un modello semplice che spiega perché dovremmo osservare una correlazione che spiega anche altre forme di evidenza è un altro modo in cui possiamo applicare il nostro ragionamento come suggerisce Kant.

Caveat emptor: è del tutto possibile che ho frainteso la filosofia, tuttavia rimane il caso che una correlazione non può mai fornire la prova di un nesso causale.


2
Per quello che vale, nella terminologia attuale penso che si dovrebbe leggere Kant come asserendo, ad esempio nella Seconda Analogia, che qualunque correlazione osservi, c'è un grafico causale che le genera. Per quanto ne so, non aveva un metodo particolare per identificare la struttura, ma supponeva che dovesse essere completamente connesso (perché "ogni evento ha una causa"). In questo senso è contemporaneo: l'inferenza causale richiede una miscela di ipotesi causali, ad esempio espresse tramite un grafico, e regolarità osservate nei dati. E in genere non è possibile evitare la prima parte né indurla dai dati
Coniugateprior

+1 ben spiegato! Forse sono troppo bayesiano, ma non sono troppo infastidito dall'idea che non possiamo avere una certa conoscenza di alcuna relazione causale.
Dikran Marsupial,



3

Il numero di spermatozoi nei maschi nei villaggi sloveni e il numero di orsi (anche in Slovenia) mostrano una correlazione negativa. Alcune persone lo trovano molto preoccupante. Proverò a ottenere lo studio che ha fatto questo.


3

Sono stato di recente a una conferenza e uno degli oratori ha dato questo esempio molto interessante (anche se il punto era di illustrare qualcos'altro):

  • Gli americani e gli inglesi mangiano molti cibi grassi. C'è un alto tasso di malattie cardiovascolari negli Stati Uniti e nel Regno Unito.

  • I francesi mangiano molti cibi grassi, ma hanno un basso tasso di malattie cardiovascolari.

  • Gli americani e gli inglesi bevono molto alcol. C'è un alto tasso di malattie cardiovascolari negli Stati Uniti e nel Regno Unito.

  • Gli italiani bevono molto alcool ma, ancora una volta, hanno un basso (er) tasso di malattie cardiovascolari.

La conclusione? Mangia e bevi quello che vuoi. E hai maggiori possibilità di avere un infarto se parli inglese!


3
È anche un buon esempio di fallacia ecologica (vale a dire, trarre conclusioni sul livello individuale dai dati a livello di gruppo).
Jeromy Anglim,


3

Un altro esempio di correlazione che ho usato è il grande aumento del numero di persone che mangiano alimenti biologici e l'aumento del numero di bambini con diagnosi di autismo negli Stati Uniti. C'è un grafico delle parodie sul web - grafico di parodia di alimenti biologici autistici


3

http://tylervigen.com/

Questo mostra una tonnellata di correlazioni che ovviamente non hanno nulla a che fare con la causalità - O hai qualche buona idea qual è la causa della correlazione di Age of Miss America correlata con gli omicidi di vapore, vapori caldi e oggetti caldi

??


2

Insegnare "La correlazione non significa causalità" non aiuta davvero nessuno perché alla fine della giornata tutti gli argomenti deduttivi si basano in parte sulla correlazione.

Gli umani sono molto cattivi nell'apprendere a non fare qualcosa.

L'obiettivo dovrebbe essere piuttosto costruttivo: pensa sempre a alternative ai tuoi presupposti iniziali che potrebbero produrre gli stessi dati.


1
Questo non risponde alla domanda: forse dovrebbe essere inteso come un commento.
whuber

2

Bene, il mio Prof. li ha usati nella classe di probabilità introduttiva:

1) Le dimensioni delle scarpe sono correlate all'abilità di lettura

2) L'attacco di squalo è correlato alla vendita di gelati.


2

Più autopompe vengono mandate al fuoco, maggiore è il danno.


1
L'unico problema con questo come esempio è che esiste una chiara causalità inversa.
naught101

1

Penso che un paradigma migliore potrebbe essere la causalità che richiede una correlazione associata a un meccanismo credibile e preferibilmente provato. Penso che la parola sottintesa debba essere usata con parsimonia in questo contesto, poiché ha diversi significati tra cui quello della suggestione.


1

L'esempio delle cicogne si trova a pagina 8 della prima edizione (1978) di Box, il libro di Hunter & Hunter intitolato "Statistics for Experimenters ..." (Wiley). Non so se sia nella seconda edizione. Identificano la città come Oldenburg e il periodo 1930-1936.

Si riferiscono a Ornithologische Monatsberichte , 44 , n. 2, Jahrgang, 1936, Berlino e 48 , n. 1, Jahrgang, 1940, Berlino e Statistiches Jahrbuch Deutscher Gemeinden , 27-33, 1932-1938, Gustav Fischer, Jena.


0

Ne ho visto uno divertente in un articolo.

La produzione di burro in Bangladesh ha una delle più alte correlazioni con l'S & P 500 per un periodo di dieci anni.

http://www.forbes.com/sites/davidleinweber/2012/07/24/stupid-data-miner-tricks-quants-fooling-themselves-the-economic-indicator-in-your-pants/


2
Eh? Il grafico mostra l'S & P nel tempo. Il titolo parla della produzione di burro e formaggio, che non sono visibili nel grafico. ???
Harvey Motulsky,


3
OK, ora vedo. Il grafico mostra la previsione di un modello di regressione multipla, mostrando che includere tre variabili stupide fa un buon lavoro nel fare in modo che il modello preveda il cambiamento nel SP500 nel tempo. Questo è un buon esempio di overfitting nella regressione multipla e mostra indirettamente che la correlazione (o il miglioramento della bontà di adattamento di un modello elaborato) non implica una causalità.
Harvey Motulsky,

0

Eccone uno perfetto. E sfortunatamente, può essere usato come un ottimo punto di insegnamento perché né lo staff del Washington Post né i Centri per il controllo e la prevenzione delle malattie dimostrano alcuna consapevolezza che l'articolo dovrebbe essere un pezzo di satira in The Onion.

https://www.washingtonpost.com/health/trumps-presidency-may-be-making-latinos-sick/2019/07/19/4e89b9f0-a97f-11e9-9214-246e594de5d5_story.html?utm_term=.9dd329c2e837


3
Riassumi ciò che viene detto dietro il link, non solo che ritieni che sia sbagliato.
cbeleites il

Scusate. Ma ho pensato che questo fosse autoesplicativo.
Mark C.

2
Il collegamento va bene come riferimento alla fonte, ma non dovresti presumere che tutti possano effettivamente leggerlo (o non senza troppe seccature). Si prega di tenere presente che tali collegamenti sono molto soggetti alla marcescenza dei collegamenti e non tutti i giornali servono tutte le regioni geografiche (ad esempio, ci sono giornali statunitensi che hanno deciso che la conformità con il GDPR dell'UE non vale la pena disturbare e che di conseguenza bloccherà i lettori con IP UE indirizzo).
cbeleites,

-2

Qualcuno ha detto, la correlazione potrebbe non significare la causalità ma sicuramente può essere un buon suggerimento :)

Ok, lasciando da parte la parte divertente, che cos'è esattamente la causalità? Siamo davvero sicuri che i pirati non causino il riscaldamento globale?

Controintuitivo, ma cosa viene preso come causa e cosa come effetto (in uno studio di correlazione non è così chiaro). Naturalmente molte volte entrambi possono essere solo effetti di una causa comune (e quindi correlati)

Tutto si riduce al metodo per determinare la causalità.

Questa è la causa (inteso gioco di parole) del detto:

Ci sono piccole bugie. Ci sono grandi bugie e ci sono statistiche.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.