Qual è la differenza tra correlazione e regressione lineare semplice?


Risposte:


114

Qual è la differenza tra la correlazione tra e e una regressione lineare che prevede da ?Y Y XXYYX

Innanzitutto, alcune somiglianze :

  • il coefficiente di regressione standardizzato è lo stesso del coefficiente di correlazione di Pearson
  • Il quadrato del coefficiente di correlazione di Pearson è lo stesso di nella regressione lineare sempliceR2
  • Né la semplice regressione lineare né la correlazione rispondono direttamente alle domande di causalità. Questo punto è importante, perché ho incontrato persone che pensano che la regressione semplice può consentire magicamente una deduzione che causa .YXY

In secondo luogo, alcune differenze :

  • L'equazione di regressione (cioè ) può essere usata per fare previsioni su base ai valori diY Xa+bXYX
  • Mentre la correlazione si riferisce in genere alla relazione lineare, può fare riferimento ad altre forme di dipendenza, come le relazioni polinomiali o veramente non lineari
  • Mentre la correlazione si riferisce in genere al coefficiente di correlazione di Pearson, esistono altri tipi di correlazione, come quella di Spearman.

Ciao Jeromy, grazie per la tua spiegazione, ma ho ancora una domanda qui: cosa succede se non ho bisogno di fare previsioni e voglio solo sapere quanto sono vicine due variabili e in quale direzione / forza? C'è ancora un diverso usando queste due tecniche?
yue86231,

3
@ yue86231 Quindi sembra che una misura di correlazione sarebbe più appropriata.
Jeromy Anglim,

5
(+1) Alle somiglianze potrebbe essere utile aggiungere che i test standard dell'ipotesi "correlazione = 0" o, equivalentemente, "pendenza = 0" (per la regressione in entrambi gli ordini), come quelli eseguiti da lme cor.testin R, produrrà valori p identici.
whuber

3
Concordo sul fatto che il suggerimento di @whuber debba essere aggiunto, ma a un livello molto elementare penso che valga la pena sottolineare che il segno della pendenza di regressione e il coefficiente di correlazione sono uguali. Questa è probabilmente una delle prime cose che la maggior parte delle persone apprende sulla relazione tra correlazione e una "linea di adattamento" (anche se non la chiamano ancora "regressione") ma penso che valga la pena notare. Alle differenze, anche il fatto che si ottenga la stessa correlazione di risposta X con Y o viceversa, ma che la regressione di Y su X sia diversa da quella di X su Y, potrebbe anche meritare una menzione.
Silverfish,

36

Ecco una risposta che ho pubblicato sul sito Web graphpad.com :

La correlazione e la regressione lineare non sono uguali. Considera queste differenze:

  • La correlazione quantifica il grado in cui due variabili sono correlate. La correlazione non si adatta a una linea tra i dati.
  • Con la correlazione non devi pensare a causa ed effetto. Devi semplicemente quantificare la relazione tra due variabili. Con la regressione, devi pensare a causa ed effetto poiché la linea di regressione è determinata come il modo migliore per prevedere Y da X.
  • Con la correlazione, non importa quale delle due variabili chiamate "X" e quali chiamate "Y". Otterrai lo stesso coefficiente di correlazione se si scambiano i due. Con la regressione lineare, la decisione di quale variabile si chiama "X" e quale si chiama "Y" è molto importante, poiché si otterrà una linea best-fit diversa se si scambiano i due. La linea che predice meglio Y da X non è la stessa che predice X da Y (a meno che tu non abbia dati perfetti senza dispersione).
  • La correlazione viene quasi sempre utilizzata quando si misurano entrambe le variabili. Raramente è appropriato quando una variabile è qualcosa che manipoli sperimentalmente. Con la regressione lineare, la variabile X è di solito qualcosa che manipoli sperimentalmente (tempo, concentrazione ...) e la variabile Y è qualcosa che misuri.

13
"il modo migliore per prevedere Y da X" non ha nulla a che fare con la causa e l'effetto: X potrebbe essere la causa di Y o viceversa. Si può ragionare dalle cause agli effetti (deduzione) o dagli effetti alle cause (rapimento).
Neil G,

4
"Otterrai una linea di adattamento diversa se cambi i due" è un po 'fuorviante; le pendenze standardizzate saranno le stesse in entrambi i casi.
xenocyon,

26

Nel singolo caso predittore di regressione lineare, la pendenza standardizzata ha lo stesso valore del coefficiente di correlazione. Il vantaggio della regressione lineare è che la relazione può essere descritta in modo tale da poter prevedere (in base alla relazione tra le due variabili) il punteggio sulla variabile prevista, dato qualsiasi valore particolare della variabile predittore. In particolare, un'informazione una regressione lineare ti dà che una correlazione non è l'intercettazione, il valore sulla variabile prevista quando il predittore è 0.

In breve: producono risultati identici dal punto di vista computazionale, ma ci sono più elementi che sono in grado di interpretare nella semplice regressione lineare. Se sei interessato a caratterizzare semplicemente l'entità della relazione tra due variabili, usa la correlazione - se sei interessato a prevedere o spiegare i tuoi risultati in termini di valori particolari, probabilmente desideri una regressione.


"In particolare un dato informativo una regressione lineare ti dà che una correlazione non è l'intercettazione" ... Molto differenza!
SIslam,

Bene, ripensandoci, è vero che la regressione fornisce un'intercettazione perché è l'impostazione predefinita per molti pacchetti di statistiche. Si potrebbe facilmente calcolare una regressione senza intercettazione.
Russellpierce,

Sì, si potrebbe facilmente calcolare una regressione senza un'intercettazione, ma raramente sarebbe significativo: stats.stackexchange.com/questions/102709/…
kjetil b halvorsen

@kjetilbhalvorsen Tranne come nel caso che ho descritto quando si adatta una pendenza standardizzata. Il termine di intercettazione in un'equazione di regressione standardizzata è sempre 0. Perché? Poiché sia ​​il IV che il DV sono stati standardizzati per i punteggi delle unità - di conseguenza l'intercettazione è definizionalmente 0. Esattamente il tipo di caso che descrivi nella tua risposta. (l'equivalente della standardizzazione di IV e DV). Quando sia IV che DV sono stati standardizzati a 0, l'intercettazione è definitivamente 0.
russellpierce

11

L'analisi di correlazione quantifica solo la relazione tra due variabili ignorando quale è una variabile dipendente e quale è indipendente. Ma prima di applicare la regressione devi verificare l'impatto di quale variabile vuoi controllare sull'altra variabile.


9

Tutte le risposte fornite finora forniscono importanti spunti, ma non bisogna dimenticare che è possibile trasformare i parametri dell'uno nell'altro:

Regressione:y=mx+b

Connessione tra parametri di regressione e correlazione, covarianza, varianza, deviazione standard e medie: b= ˉ y -m ˉ x

m=Cov(y,x)Var(x)=Cor(y,x)Sd(y)Sd(x)
b=y¯mx¯

Quindi puoi trasformarli entrambi l'uno nell'altro ridimensionando e spostando i loro parametri.

Un esempio in R:

y <- c(4.17, 5.58, 5.18, 6.11, 4.50, 4.61, 5.17, 4.53, 5.33, 5.14)
x <- c(4.81, 4.17, 4.41, 3.59, 5.87, 3.83, 6.03, 4.89, 4.32, 4.69)
lm(y ~ x)
## 
## Call:
## lm(formula = y ~ x)
## 
## Coefficients:
## (Intercept)            x  
##      6.5992      -0.3362
(m <- cov(y, x) / var(x)) # slope of regression
## [1] -0.3362361
cor(y, x) * sd(y) / sd(x) # the same with correlation
## [1] -0.3362361
mean(y) - m*mean(x)       # intercept
## [1] 6.599196

3

Dalla correlazione possiamo solo ottenere un indice che descriva la relazione lineare tra due variabili; in regressione possiamo predire la relazione tra più di due variabili e possiamo usarla per identificare quali variabili x possono prevedere la variabile di risultato y .


3

Citando Altman DG, "Statistiche pratiche per la ricerca medica" Chapman & Hall, 1991, pagina 321: "La correlazione riduce un insieme di dati a un singolo numero che non ha alcuna relazione diretta con i dati reali. La regressione è un metodo molto più utile, con risultati che sono chiaramente correlati alla misurazione ottenuta. La forza della relazione è esplicita e l'incertezza può essere vista chiaramente da intervalli di confidenza o intervalli di predizione "


3
Anche se sono solidale con Altman - i metodi di regressione spesso sono più adatti della correlazione in molti casi - questa citazione sta creando un argomento di paglia. Nella regressione OLS le informazioni prodotte sono equivalenti a quelle fornite dalle informazioni che vanno in un calcolo di correlazione (tutti i primi e secondi momenti bivariati e i loro errori standard) e il coefficiente di correlazione fornisce le stesse informazioni della pendenza di regressione. I due approcci differiscono in qualche modo nei modelli di dati sottostanti che assumono e nella loro interpretazione, ma non nei modi rivendicati da Altman.
whuber

1

L'analisi di regressione è una tecnica per studiare la causa dell'effetto di una relazione tra due variabili. mentre, L'analisi di correlazione è una tecnica per studiare quantifica la relazione tra due variabili.


6
Benvenuto in CV! Dato che ci sono già così tante risposte a questa domanda, vuoi darle un'occhiata e vedere se la tua aggiunge qualcosa di nuovo? Se hai altro da dire, puoi modificarlo per farlo.
Scortchi

0

La correlazione è un indice (solo un numero) della forza di una relazione. La regressione è un'analisi (stima dei parametri di un modello e test statistico della loro significatività) dell'adeguatezza di una particolare relazione funzionale. La dimensione della correlazione è correlata alla precisione delle previsioni della regressione.


1
No non lo è. La correlazione ci fornisce una relazione limitata ma non è correlata alla precisione delle previsioni. R2 lo dà.
SmallChess,

-3

La correlazione è un termine in una statistica che determina se esiste una relazione tra due e quindi il grado di relazione. L'intervallo è compreso tra -1 e +1. Mentre la regressione significa tornare alla media. Dalla regressione prevediamo il valore mantenendo una variabile dipendente e l'altra indipendente, ma dovrebbe essere chiarire il valore di quale variabile vogliamo prevedere.


6
Ciao, @shakir, e benvenuto su Cross Validated! Probabilmente hai notato che questa è una vecchia domanda (dal 2010) e ci sono già sette (!) Risposte. Sarebbe una buona idea assicurarsi che la tua nuova risposta aggiunga qualcosa di importante alla discussione che non è stato trattato in precedenza. Al momento non sono sicuro che sia così.
amoeba,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.