La semplice regressione lineare implica una causalità?


17

So che la correlazione non implica la causalità ma invece la forza e la direzione della relazione. La semplice regressione lineare implica una causalità? Oppure è necessario un test statistico inferenziale (t-test, ecc.) Per questo?


3
Cosa intendi con "direzione"? Hai letto le risposte a domande simili stats.stackexchange.com/search?q=causal ? La risposta breve è no!
NRH,

3
Nessuno dei tuoi suggerimenti implica causalità (o direzione).
Henry,

2
Penso che l'OP significasse "direzione" nel senso di correlazione positiva vs negativa, non la direzione di qualsiasi relazione causale tra X e Y.
JMS,

Risposte:


19

La risposta rapida è no. Puoi facilmente fornire dati non correlati che, una volta regrediti, supereranno tutti i tipi di test statistici. Di seguito una vecchia immagine di Wikipedia (che, per qualche motivo è stata recentemente rimossa) che è stata utilizzata per illustrare la "causalità" basata sui dati.

Abbiamo bisogno di più pirati per raffreddare il pianeta?

inserisci qui la descrizione dell'immagine

Per le serie storiche, esiste un termine chiamato "Causalità di Granger" che ha un significato molto specifico.

http://en.wikipedia.org/wiki/Granger_causality

A parte questo, la "causalità" è negli occhi di chi guarda.


Intendevo correlazione positiva o negativa per direzione. Grazie per la tua risposta e link a domande simili.
user4572,

1
Quello è un asse X piuttosto folle in quella foto! (Ma buon esempio!)
Andy W,

2
Un altro ..... Cheese, Butter, and Sheep in Bangladesh, contro l'S & P500 (R ^ 2 = 0,99) ...... nerdsonwallstreet.typepad.com/my_weblog/files/… ....
bill_080

5
Quel grafico è ovviamente obsoleto. O questo o ci sono pregiudizi dovuti alla mancanza di geometri disponibili per il campionamento nel Golfo di Aden
cardinale

2
Questi dati erano prima che Al Gore diventasse un pirata.
bill_080,

10

Non c'è nulla di esplicito nella matematica della regressione che affermi relazioni causali, e quindi non è necessario interpretare esplicitamente la pendenza (forza e direzione) né i valori p (cioè la probabilità che si sarebbe osservata una relazione tanto forte quanto più forte se la relazione era zero nella popolazione) in modo causale.

Detto questo, direi che la regressione ha una connotazione molto più forte del fatto che si sta stimando una relazione direzionale esplicita rispetto alla stima della correlazione tra due variabili. Supponendo per correlazione si intende la r di Pearson , in genere non ha un'interpretazione causale esplicita in quanto la metrica è simmetrica (ovvero è possibile cambiare quale variabile è X e quale Y è e si avrà comunque la stessa misura). Anche il colloquialismo "La correlazione non implica la causalità" sospetto sia così noto che affermando che due variabili sono correlate, si suppone che non si stia facendo un'affermazione causale.

Gli effetti stimati nell'analisi di regressione non sono però simmetrici, e quindi scegliendo quale variabile si trova sul lato destro rispetto al lato sinistro si sta facendo un'affermazione implicita diversa da quella della correlazione. Ho il sospetto che uno abbia intenzione di fare qualche affermazione causale nella stragrande maggioranza delle circostanze in cui viene utilizzata la regressione (inferenza vs previsione a parte). Anche in casi di semplice affermazione di correlazioni sospetto che le persone abbiano spesso in mente alcuni obiettivi impliciti di inferenza causale. Dati alcuni vincoli che si incontrano la correlazione può implicare una causalità !


7

Né la correlazione né la regressione possono indicare la causalità (come è illustrato dalla risposta di @ bill_080) ma come @Andy W indica che la regressione si basa spesso su una variabile esplicitamente fissa (cioè indipendente) e su una variabile esplicita (cioè casuale). Queste designazioni non sono appropriate nell'analisi di correlazione.

Per citare Sokal e Rohlf, 1969, p. 496

"In regressione intendiamo descrivere la dipendenza di una variabile Y da una variabile indipendente X ... per dare supporto alle ipotesi riguardanti la possibile causa di cambiamenti in Y da cambiamenti in X ..."

"In correlazione, al contrario, ci preoccupiamo in gran parte se due variabili sono interdipendenti o covarie - cioè, variano insieme. Non esprimiamo l'una in funzione dell'altra."

Sokal, RR e FJ Rohlf, 1969. Biometria. Freeman and Co.


4

Da una prospettiva semantica, un obiettivo alternativo è quello di costruire prove per un buon modello predittivo invece di provare la causalità. Una semplice procedura per creare prove del valore predittivo di un modello di regressione consiste nel dividere i dati in 2 parti e adattare la regressione con una parte dei dati e con l'altra parte del test dei dati quanto preveda.

La nozione di causalità di Granger è interessante.


2

β^=Cov(X,y)Vun'r(X)
α^=y¯-β^X¯,

dove Var (.) e Cov (.) sono stime dal campione (dati).

Di conseguenza, questi stessi parametri non sono altro che alcune funzioni di correlazione tra xe y. In particolare, beta è solo un coefficiente di correlazione "normalizzato". Quindi, non vi è più causalità implicita nella regressione che nella correlazione. La regressione causale è una tecnica speciale in econometria in cui si dovrebbe fare affidamento, ad esempio, su variabili strumentali per aggirare fenomeni come confusione che oscurano l'interpretazione causale di un particolare modello di regressione.

Il mio punto è: la regressione può essere fatto causale ma è non causale y di default.

Per ulteriori informazioni, guarda questi video: https://www.youtube.com/watch?v=Sqy_b5OSiXw&list=PLwJRxp3blEvaxmHgI2iOzNP6KGLSyd4dz&index=55&t=0s

Il "modello Rubin" dello stesso Rubin: http://www.stat.columbia.edu/~cook/qr33.pdf

Ottimo corso introduttivo sulla causalità (sebbene, nessuna regressione ancora): https://www.coursera.org/learn/crash-course-in-causality


Punti buoni. Benvenuti nel CV.
Neil G,

0

La mia comprensione (sono un principiante della causalità) è la seguente:

  • La regressione lineare implica la causalità se le covariate provengono da un esperimento controllato e l'esperimento isola bene il fattore causale ipotizzato (vedere regressione lineare e causalità in un esperimento controllato randomizzato ).

  • In alternativa, (aggiornato grazie ai commenti), portano a molte violazioni della causalità E(ϵ|X)0. Note that E(ϵ|X)0 means that we can't draw causal conclusions, but E(ϵ|X)=0 doesn't mean that we can.

Note that we can't test whether E(ϵ|X)=0, and there is some circularity in the arguments here.


2
Could you elaborate on how E(ϵ|X)=0 implies causation?
Sextus Empiricus

See this for a detailed discussion stats.stackexchange.com/questions/59588/…, with some nice points made.
mlstudent

could you be a bit more direct. I see no prrof or explanation how or why E(ϵ|X)=0 implies causation.
Sextus Empiricus

I'm a bit new to causality, but as I understand it there are three major concerns that could make y=α+βx+ϵ not imply causality. One is if there is some other omitted variable causing y, another is if there is an omitted variable causing x, and finally a third is that y may cause x. All will lead to violations of the exogeneity condition. I don't have the math for exactly why but will actually look this up/try to derive it.
mlstudent

A simple counter example. When you generate data YN(μY,σY) and X|YN(a+bY,σX) then you still have E(ϵ|X)=0 (X and Y are jointly normal distributed).
Sextus Empiricus

-6

Regression ASSUMES a causal relationship....if there is no basis for causality as a result of physical/intellectual/scientific analysis of the issue, there is no basis for a causal analysis and no basis for a regression. This is why the FDA and similar government agencies are always proclaiming "This causes that!" only to retract it years and billions of dollars in damage, later. Examples are legion: coffee, chocolate, caffeine, bacon, eggs, etc....

Worse yet is when two variable have a feedback loop. One may cause the other at one point; only for the other to cause the one, later. This always happens in my field, economics: which is why most economic analysis isn't worth the paper it is printed on.


6
This is completely wrong. Regression just finds a relationship between two sets of numbers. Whether that relationship exists because of a direct causal connection or not is a completely different issue.
gung - Reinstate Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.