In che modo il coefficiente di correlazione differisce dalla pendenza di regressione?


69

Mi sarei aspettato che il coefficiente di correlazione fosse lo stesso di una pendenza di regressione (beta), tuttavia avendo appena confrontato i due, sono diversi. In che modo differiscono: quali informazioni diverse forniscono?


3
se sono normalizzati, sono gli stessi. ma pensa a cosa succede quando fai il cambio di unità ...
nicolas,

Penso che il punteggio più alto risponda a questa Q (e forse anche alla mia A in cui mostro che il coefficiente di correlazione può essere visto come il valore assoluto della media geometrica delle due pendenze che otteniamo se regrediamo y su xe x su y, rispettivamente) sono rilevanti anche qui
statmerkur

Risposte:


82

Supponendo che tu stia parlando di un semplice modello di regressione stimato da minimi quadrati, sappiamo da wikipedia che Pertanto i due coincidono solo quando . Cioè, coincidono solo quando le due variabili sono sulla stessa scala, in un certo senso. Il modo più comune per raggiungere questo obiettivo è attraverso la standardizzazione, come indicato da @gung.

Yi=α+βXi+εi
β^=cor(Yi,Xi)SD(Yi)SD(Xi)
SD(Yi)=SD(Xi)

I due, in un certo senso, ti danno le stesse informazioni: ognuno di essi ti dice la forza della relazione lineare tra e . Ciascuno però ti fornisce informazioni distinte (tranne, ovviamente, quando sono esattamente le stesse):XiYi

  • La correlazione fornisce una misurazione limitata che può essere interpretata indipendentemente dalla scala delle due variabili. Più la correlazione stimata è vicina a , più le due sono vicine a una relazione lineare perfetta . La pendenza della regressione, in isolamento, non ti dice quella informazione.±1

  • La pendenza di regressione fornisce una quantità utile interpretata come la variazione stimata del valore atteso di per un dato valore di . In particolare, ti dice la variazione del valore atteso di corrispondente ad un aumento di 1 unità in . Questa informazione non può essere dedotta dal solo coefficiente di correlazione.YiXiβ^YiXi


Come corollario di questa risposta, nota che regredire x contro y non è l'inverso della regressione di y contro x!
aginensky,

23

Con una semplice regressione lineare (ovvero solo 1 covariata), la pendenza è la stessa della di Pearson se entrambe le variabili fossero prima standardizzate . (Per ulteriori informazioni, potresti trovare utile la mia risposta qui .) Quando stai facendo una regressione multipla, questo può essere più complicato a causa della , ecc.β1r


14

Il coefficiente di correlazione misura la "tenuta" della relazione lineare tra due variabili ed è limitata tra -1 e 1, incluso. Le correlazioni vicine allo zero non rappresentano alcuna associazione lineare tra le variabili, mentre le correlazioni vicine a -1 o +1 indicano una relazione lineare forte. Intuitivamente, più è facile per te tracciare una linea di adattamento ottimale attraverso un diagramma a dispersione, più sono correlate.

La pendenza di regressione misura la "pendenza" della relazione lineare tra due variabili e può assumere qualsiasi valore compreso tra e . Le pendenze vicino allo zero indicano che la variabile di risposta (Y) cambia lentamente quando cambia la variabile del predittore (X). Pendenze che sono più lontane da zero (in direzione negativa o positiva) indicano che la risposta cambia più rapidamente al variare del predittore. Intuitivamente, se dovessi tracciare una linea della migliore misura attraverso un diagramma a dispersione, più è ripida, più la pendenza è da zero.+

Quindi il coefficiente di correlazione e la pendenza di regressione DEVONO avere lo stesso segno (+ o -), ma non avranno quasi mai lo stesso valore.

Per semplicità, questa risposta presuppone una regressione lineare semplice.


indichi che la beta può essere in , ma non esiste un caso per caso legato alla beta implicita dal rapporto di varianza di xe y? inf,inf
Matifou,

1

Il coefficiente di correlazione di Pearson è senza dimensioni e scalato tra -1 e 1 indipendentemente dalla dimensione e dalla scala delle variabili di input.

Se (per esempio) inserisci una massa in grammi o chilogrammi, non fa alcuna differenza per il valore di , mentre ciò farà una differenza enorme per il gradiente / pendenza (che ha dimensione e viene ridimensionato di conseguenza ... allo stesso modo, esso non farebbe differenza per se la scala fosse regolata in qualche modo, incluso usando invece sterline o tonnellate).rr

Una semplice dimostrazione (scuse per l'uso di Python!):

import numpy as np
x = [10, 20, 30, 40]
y = [3, 5, 10, 11]
np.corrcoef(x,y)[0][1]
x = [1, 2, 3, 4]
np.corrcoef(x,y)[0][1]

mostra che anche se la pendenza è stata aumentata di un fattore 10.r=0.969363

Devo confessare che è un trucco chiaro che viene scalato tra -1 e 1 (uno di quei casi in cui il numeratore non può mai avere un valore assoluto maggiore del denominatore).r

Come sopra descritto da @Macro, la pendenza , quindi hai ragione nell'intuire che la di Pearson è correlata alla pendenza, ma solo se regolata secondo alle deviazioni standard (che ripristina efficacemente le dimensioni e le scale!).b=r(σyσx)r

All'inizio ho pensato che fosse strano che la formula sembrasse suggerire che una linea leggermente allentata (bassa ) producesse un gradiente più basso; poi ho tracciato un esempio e mi sono reso conto che, dato un gradiente, variando la "scioltezza" risulta una riduzione di ma questo è compensato da un aumento proporzionale di .rrσy

Nel grafico seguente, vengono tracciati quattro set di dati :x,y

  1. i risultati di (quindi gradiente , , , ) ... nota chey=3xb=3r=1σx=2.89σy=8.66σyσx=3
  2. lo stesso ma variato da un numero casuale, con , , , da cui possiamo calcolarer=0.2447σx=2.89σy=34.69b=2.94
  3. y=15x (quindi e , , )b=15r=1σx=0.58σy=8.66
  4. uguale a (2) ma con intervallo ridotto quindi (e ancora , , ) xb=14.70r=0.2447σx=0.58σy=34.69correlazione e gradiente

Si può vedere che la varianza influenza senza influire necessariamente su , e le unità di misura possono influenzare la scala e quindi senza influenzarerbbr

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.