Come trovi le relazioni causali nei dati?


11

Diciamo che ho una tabella con le colonne "A", "B"

Esiste un metodo statistico per determinare se "A" provoca "B"? Non si può davvero usare la Pearson's r, perché:

  • verifica solo la correlazione tra valori
  • la correlazione non è causalità
  • La r di Pearson può solo correlare relazioni lineari

Quindi quali altre opzioni ho qui?


1
Non c'è. Da tali dati è possibile dimostrare un elevato grado di correlazione; non puoi dimostrare la causalità.


1
La causalità non è semplicemente qualcosa che puoi spremere dai numeri ... quindi, ripeti dopo di me: la causalità non è correlazione , la causalità non è correlazione ...
JM non è uno statistico

1
Vedi "Causalità" di Judea Pearl (vincitore del Turing Award 2011).

Risposte:


4

Le risposte e i commenti finora sono fondamentalmente corretti a livello pratico, ma per completezza, c'è una ricerca sui cosiddetti modelli di causalità che si basano sulla statistica bayesiana e sulla teoria dei grafi. Quindi, sebbene in generale la correlazione non implichi la causalità, ci sono modelli più complessi che tentano di stuzzicare la causalità. Vedi il libro Causality di Judea Pearl per maggiori dettagli, ma questa è matematica molto pesante e probabilmente non è quello che vuoi.


2

Esistono molti metodi cosiddetti quasi sperimentali con i quali puoi discutere in modo credibile della causalità, anche se i tuoi dati sono osservativi. Questi metodi si basano in genere sulla ricerca di una fonte di variazione esogena nella variabile di interesse.

Penso che una buona e accessibile panoramica sia data nel libro "Mostly Harmless Econometrics". Coprono sostanzialmente tutti i metodi quasi sperimentali in cui le persone (nel senso: economisti) credono (almeno a volte). Non coprono i metodi citati ad esempio da trb456 (per lo stesso motivo: non molti credono in essi).


1

Per determinare la causalità è necessario eseguire un test di randomizzazione. Prendi i tuoi soggetti di prova e scegli a caso metà di loro per avere la qualità A e metà per non averlo. Si vede quindi se esiste una differenza statisticamente significativa nella qualità B tra i due gruppi.

UNB

Si noti che potrebbe essere impossibile eseguire il test di randomizzazione che si desidera eseguire. Ad esempio, come potresti provare se essere alto ti fa pesare di più? Certamente esiste una correlazione tra altezza e peso, ma non è possibile assegnare casualmente un gruppo di persone a un gruppo "alto" e uno a un gruppo "corto". In questo caso, il test di randomizzazione non può essere eseguito.


0

Somers lavora per spiegare la relazione tra le variabili ordinali in un modo che il coefficiente di correlazione di Pearson fa per i set di dati.


1
Sono d'accordo che ci vogliono più dei numeri per stabilire la causalità. In che modo l'uso delle variabili ordinali entra nella domanda?
Michael R. Chernick,

1
@MichaelChernick Somers 'D è una misura asimmetrica dell'associazione. Può distinguere tra "se piove, quindi è nuvoloso", da "se è nuvoloso, allora piove". Funziona per dati ordinali o superiori. Non stabilisce il nesso di causalità, ma stabilisce la direzionalità.
Dave Harris il
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.