Quando la correlazione può essere utile senza causalità?


27

Un animale domestico che dice molti statistici è "La correlazione non implica la causalità". Questo è certamente vero, ma una cosa che sembra implicita qui è che la correlazione ha poco o nessun valore. È vero? È inutile sapere che due variabili sono correlate?

Non riesco a immaginare che sia così. Non ho orribilmente familiarità con l'analisi predittiva, ma sembra che se Xè un predittore Y, sarebbe utile nel predire i valori futuri di Ybasato su X, indipendentemente dalla causalità.

Sono errato nel vedere il valore in correlazione? E se no, in quali situazioni uno statistico o uno scienziato di dati potrebbe usare la correlazione senza causalità?


5
A mio avviso, l'espressione "causalità non implica correlazione" è spesso utilizzata in modo improprio per implicare che le statistiche non dovrebbero sempre essere attendibili (vero, ma non sempre a causa della mancanza di causalità). Mi sento così aggravato quando vedo le persone abbandonare questa frase in riferimento al motivo per cui un'analisi predittiva è errata. Ad esempio, facebook.com/notes/mike-develin/debunking-princeton/… è un ottimo esempio sia di un'analisi terribile, sia di un terribile debunking di un'analisi terribile.
Cliff AB,

10
Ad esempio, supponi di scoprire che vivere in una certa città è correlato alla morte precoce. Non puoi concludere che vivere in quella città provochi la morte prematura, né che far uscire le persone da quella città le aiuterebbe a vivere più a lungo. (Forse la città è attraente per le persone malate, per qualche motivo.) Ma se sei un attuario, saresti perfettamente giustificato nel voler addebitare premi di assicurazione sulla vita più alti ai membri di quella città - conoscere questa correlazione potrebbe essere molto prezioso per tu.
Nate Eldredge,

2
Altre persone muoiono nel sud dell'Inghilterra, @NateEldredge. Questo perché le persone si ritirano lì.
TRiG,

1
L' assenza di correlazione ha più significato, probabilmente.
Raffaello,

Riferimento xkcd obbligatorio: xkcd.com/552
vsz

Risposte:


32

La correlazione (o qualsiasi altra misura di associazione) è utile per la previsione indipendentemente dalla causalità. Supponiamo di misurare un'associazione chiara e stabile tra due variabili. Ciò significa che conoscere il livello di una variabile fornisce anche alcune informazioni su un'altra variabile di interesse, che è possibile utilizzare per aiutare a prevedere una variabile in funzione dell'altra e, cosa più importante, agire in base a tale previsione . Agire comporta la modifica di una o più variabili, ad esempio quando si effettua una raccomandazione automatizzata o si impiega un intervento medico. Naturalmente, potresti fare previsioni migliori e agire in modo più efficace se avessi una visione più approfondita delle relazioni dirette o indirette tra due variabili. Questa intuizione può coinvolgere altre variabili, comprese quelle spaziali e temporali.


4
Le correlazioni non sono sempre utili per la previsione. In caso di causalità inversa, ci sono importanti aspetti temporali per i quali non è sempre possibile controllare. Ci imbattiamo sempre in questo con la malattia di Alzheimer. Stiamo costantemente sbattendo la testa contro il muro cercando di discernere: i biomarcatori che troviamo nel cervello affetto da AD causano la malattia o sono causati dalla malattia?
AdamO,

1
@AdamO Penso che la mia risposta copra quella base nell'ultima o due frasi, quindi non sono in disaccordo con te.
Brash Equilibrium,

1
Il problema con la causalità si pone in realtà solo se stai cercando di interpretare il tuo modello predittivo. (Naturalmente questo è ciò che ci interessa spesso nella scienza). Quando vediamo che il biomarcatore Aè un ottimo predittore, è molto allettante affermare che questa è anche la causa della malattia - E come menzionato nei commenti, è molto facile giungere a conclusioni errate. Se vogliamo solo fare previsioni, ad esempio dire se un paziente ha la malattia o no, non ci sono problemi con le correlazioni.
cel

1
Questo non è vero e qui c'è solo un esempio del perché. Se agire sulle tue previsioni implica cambiare una variabile e aspettarti che anche il bersaglio cambi, ma in realtà non esiste un collegamento diretto o la relazione causale va dall'altra parte, allora farai un'azione sbagliata. E prima di dire "ma in quell'esempio stai interpretando il modello", dico "in quale scenario NON trarresti deduzioni nemmeno da un modello destinato alla previsione?" Risposta: quando non riponi molta fiducia nelle relazioni causali che il tuo modello implica.
Brash Equilibrium,

1
@BrashEquilibrium: ci sono molti modi per agire su una previsione che non comporta l'alterazione delle variabili utilizzate per ottenere la previsione in alcun modo. Ti interessa sapere se il tuo negozio dovrebbe fare scorta di guanti di lana? Sapere quanto gelato hai venduto di recente (ovviamente nell'ipotetica assenza di fonti di dati più dirette) può essere un buon predittore.
Ilmari Karonen,

17

Ci sono già molti buoni punti qui. Consentitemi di disimballare la vostra affermazione che "sembra che se Xè un predittore Y, sarebbe utile nel predire un po 'i valori futuri di Ybased on X, indipendentemente dalla causalità". Hai ragione: se tutto ciò che vuoi è essere in grado di prevedere un Yvalore sconosciuto da un Xvalore noto e una relazione nota e stabile, lo stato causale di quella relazione è irrilevante. Considera che:

  • È possibile prevedere un effetto da una causa. Questo è intuitivo e non controverso.
  • Puoi anche prevedere una causa dalla conoscenza di un effetto. Alcune, ma pochissime, le persone che hanno il cancro ai polmoni non hanno mai fumato. Di conseguenza, se conosci qualcuno che ha un cancro ai polmoni, puoi prevedere con sicurezza che sono / erano un fumatore, nonostante il fatto che il fumo sia causale e che il cancro ne sia l'effetto. Se l'erba nel cortile è bagnata e l'irrigatore non ha funzionato, puoi prevedere che ha piovuto, anche se la pioggia è la causa e l'erba bagnata è solo l'effetto. Eccetera.
  • Puoi anche prevedere un effetto sconosciuto da un effetto noto della stessa causa. Ad esempio, se Billy e Bobby sono gemelli identici e non ho mai incontrato Billy, ma so che Bobby è 5 '10' (178 cm), posso prevedere che Billy è anche 178 cm con buona fiducia, nonostante il fatto che né l'altezza di Billy provoca l'altezza di Bobby né l'altezza di Bobby causa l'altezza di Billy.

7
Solo per dare nomi alle tue categorie: I tuoi tre tipi di previsione sono chiamati (in ordine) deduzione , rapimento e induzione .
Neil G,

12

Non stanno prendendo in giro l'importanza della correlazione. È solo che la tendenza è interpretare la correlazione come causalità.

Prendi l'allattamento al seno come esempio perfetto. Le madri quasi sempre interpretano i risultati (degli studi osservazionali) sull'allattamento al seno come suggerimento sull'opportunità o meno di allattare al seno. È vero che, in media, i bambini allattati al seno tendono ad essere adulti più sani per l'età anche dopo aver controllato l'età materna e paterna longitudinale, lo stato socioeconomico, ecc. Ciò non implica che l'allattamento al seno da solo sia responsabile della differenza, sebbene possa gioca in parte un ruolo nello sviluppo iniziale della regolazione dell'appetito. La relazione è molto complessa e si può facilmente speculare su tutta una serie di fattori di mediazione che potrebbero essere alla base delle differenze osservate.

Molti studi guardano alle associazioni per giustificare una più profonda comprensione di ciò che sta accadendo. La correlazione non è inutile, è solo una serie di passaggi al di sotto della causalità e bisogna essere consapevoli di come riportare i risultati per prevenire errori di interpretazione da parte di non esperti.


9

Hai ragione che la correlazione è utile. La ragione per cui i modelli causali sono migliori dei modelli associativi è che - come dice Pearl - sono oracoli per gli interventi. In altre parole, ti permettono di ragionare ipoteticamente. Un modello causale risponde alla domanda "se dovessi far accadere X, cosa accadrebbe a Y?"

Ma non devi sempre ragionare ipoteticamente. Se il modello è solo andare a essere utilizzato per rispondere a domande del tipo "se osservo X, quello che ne so io di Y?", Quindi un modello associativo è tutto il necessario.


3
Oracles For Interventions sarebbe un buon nome per una band.
Malvolio,

@Malvolio: lol, è un modo imperdonabilmente succinto di descrivere modelli causali. Mi piace molto quella frase.
Neil G,

4

Hai ragione che la correlazione è utile per la previsione. È anche utile per comprendere meglio il sistema in studio.

Un caso in cui è necessaria la conoscenza del meccanismo causale è se la distribuzione target è stata manipolata (ad esempio alcune variabili sono state "forzate" ad assumere determinati valori). Un modello basato solo su correlazioni funzionerà male, mentre un modello che utilizzava informazioni causali dovrebbe funzionare molto meglio.


2

La correlazione è uno strumento utile se si dispone di un modello sottostante che spiega la causalità.

Ad esempio, se sai che l'applicazione di una forza a un oggetto influenza il suo movimento, puoi misurare la correlazione tra forza e velocità, forza e accelerazione. La correlazione più forte (con l'accelerazione) sarà esplicativa da sola.

Negli studi osservazionali, la correlazione può rivelare alcuni modelli comuni (come dichiarato allattamento al seno e salute successiva) che potrebbero costituire un terreno per ulteriori esplorazioni scientifiche attraverso un adeguato disegno sperimentale in grado di confermare o rifiutare la causalità (ad es. Forse invece che l'allattamento al seno è la causa che potrebbe essere la conseguenza per un determinato quadro culturale).

Pertanto, la correlazione può essere utile, ma raramente può essere conclusiva.


2

Come hai affermato, la correlazione da sola ha molta utilità, principalmente la previsione.

Il motivo per cui questa frase viene utilizzata (o utilizzata in modo improprio, vedere il mio commento all'inizio del post) così spesso è che la causalità è spesso una domanda molto più interessante. Vale a dire, se abbiamo speso un sacco di fatica per esaminare la relazione tra e , è molto probabile, perché, di nuovo nel mondo reale, siamo curiosi se possiamo usare per influenzare .B A BABAB

Ad esempio, tutti questi studi che dimostrano che l'uso intensivo di caffè negli anziani è correlato a sistemi cardiovascolari più sani sono, secondo me, indubbiamente motivati ​​da persone che vogliono giustificare le loro pesanti abitudini di caffè. Tuttavia, dire che bere caffè è correlato solo con cuori più sani, piuttosto che causali, non fa nulla per rispondere alla nostra vera domanda di interesse: saremo più sani se beviamo più caffè o se riduciamo? Può essere molto frustrante trovare risultati molto interessanti (il caffè è legato a cuori più sani!), Ma non essere in grado di usare queste informazioni per prendere decisioni (ancora non so se dovresti bere caffè per essere più sano), e quindi c'è quasi sempre una tentazione di interpretare la correlazione come causalità.

A meno che forse tutto ciò che ti interessa sia il gioco d'azzardo (cioè vuoi predire ma non influenzare).


2

C'è valore nella correlazione, ma si dovrebbero esaminare più prove per concludere la causalità.

Anni fa, c'era uno studio che ha prodotto "il caffè provoca il cancro". Appena ho sentito questo sulla notizia ho detto a mia moglie "falsa correlazione". Si è scoperto che avevo ragione. La popolazione di caffè di 2-3 tazze al giorno aveva un tasso di fumo più elevato rispetto ai non bevitori di caffè. Una volta che i raccoglitori di dati lo hanno capito, hanno ritirato i loro risultati.

Un altro studio interessante prima del boom immobiliare e del busto ha mostrato il razzismo quando si trattava di elaborare i mutui. L'affermazione era che i richiedenti neri venivano respinti a un tasso superiore rispetto ai bianchi. Ma un altro studio ha esaminato i tassi di default. I proprietari di abitazione neri erano inadempienti alla stessa velocità dei bianchi. Se l'applicazione del nero fosse mantenuta su uno standard più elevato, il loro tasso di default sarebbe effettivamente molto più basso. Nota: questo aneddoto è stato condiviso dall'autore Thomas Sowell nel suo libro The Housing Boom and Bust

Il data mining può facilmente produrre due serie di dati che mostrano un'elevata correlazione, ma per eventi che non potrebbero essere correlati. Alla fine, è meglio guardare gli studi che ti vengono inviati con un occhio molto critico. Trovare false correlazioni non è sempre facile, è un talento acquisito.


Mi è piaciuto leggere questa risposta. Sembra, tuttavia, affrontare l'inverso della domanda: "È inutile sapere che due variabili sono correlate? ... In quali situazioni uno statistico o uno scienziato di dati potrebbe usare la correlazione senza causalità?"
whuber

1
"I proprietari di case neri erano inadempienti alla velocità degli stessi come bianchi. Se l'applicazione nera fosse mantenuta a uno standard più elevato, la loro percentuale di default sarebbe in realtà molto più bassa." sta saltando alle conclusioni. È esattamente questo problema; i richiedenti neri saranno statisticamente diversi dai richiedenti bianchi e se un gruppo di più neri fa parte di un gruppo che ha maggiori probabilità di aver accettato il default dei mutui, i richiedenti neri con lo stesso tasso di inadempienza indicherebbero una discriminazione. Separare gli effetti confondenti è difficile.
prosfilaes,

Come ho affermato, l'aneddoto proveniva da un noto studioso nero. E ci è voluto molto più di un paragrafo per discutere nel libro a cui ho fatto riferimento.
JTP - Scusati con Monica il

1

La correlazione è un fenomeno osservabile. Puoi misurarlo. Puoi agire su quelle misurazioni. Da solo, può essere utile.

Tuttavia, se tutto ciò che hai è una correlazione, non hai alcuna garanzia che una modifica apportata abbia effettivamente un effetto (vedi i famosi grafici che legano l'ascesa di iPhone alla schiavitù all'estero e simili). Mostra solo che esiste una correlazione lì, e se modifichi l'ambiente (agendo), quella correlazione potrebbe essere ancora lì.

Tuttavia, questo è un approccio molto sottile. In molti scenari vogliamo avere uno strumento meno sottile: la causalità. La causalità è una correlazione combinata con l'affermazione che se modifichi il tuo ambiente agendo in un modo o nell'altro, dovresti aspettarti che la correlazione sia ancora lì. Ciò consente una pianificazione a più lungo termine, come il concatenamento di 20 o 50 eventi causali consecutivi per identificare un risultato utile. Farlo con 20 o 50 correlazioni spesso lascia un risultato molto sfocato e oscuro.

Come esempio di come sono stati utili in passato, si consideri la scienza occidentale contro la medicina tradizionale cinese (MTC). La scienza occidentale si concentra principalmente su "Sviluppa una teoria, isola un test che può dimostrare la teoria, eseguire il test e documentare i risultati". Questo inizia con "sviluppare una teoria", che è fortemente legata alla causalità. TCM lo ha fatto girare, iniziando con "escogitare un test che può fornire risultati utili, eseguire il test, identificare le correlazioni nella risposta". L'attenzione si concentra maggiormente sulle correlazioni.

Oggi gli occidentali tendono a preferire pensare quasi interamente in termini di causalità, quindi il valore dello studio della correlazione è più difficile da spiare. Tuttavia, lo troviamo in agguato in ogni angolo della nostra vita. E non dimenticare mai che, anche nella scienza occidentale, le correlazioni sono uno strumento importante per identificare quali teorie vale la pena esplorare!

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.