Mi sarei aspettato che il coefficiente di correlazione fosse lo stesso di una pendenza di regressione (beta), tuttavia avendo appena confrontato i due, sono diversi. In che modo differiscono: quali informazioni diverse forniscono?
Mi sarei aspettato che il coefficiente di correlazione fosse lo stesso di una pendenza di regressione (beta), tuttavia avendo appena confrontato i due, sono diversi. In che modo differiscono: quali informazioni diverse forniscono?
Risposte:
Supponendo che tu stia parlando di un semplice modello di regressione stimato da minimi quadrati, sappiamo da wikipedia che Pertanto i due coincidono solo quando . Cioè, coincidono solo quando le due variabili sono sulla stessa scala, in un certo senso. Il modo più comune per raggiungere questo obiettivo è attraverso la standardizzazione, come indicato da @gung.
I due, in un certo senso, ti danno le stesse informazioni: ognuno di essi ti dice la forza della relazione lineare tra e . Ciascuno però ti fornisce informazioni distinte (tranne, ovviamente, quando sono esattamente le stesse):
La correlazione fornisce una misurazione limitata che può essere interpretata indipendentemente dalla scala delle due variabili. Più la correlazione stimata è vicina a , più le due sono vicine a una relazione lineare perfetta . La pendenza della regressione, in isolamento, non ti dice quella informazione.
La pendenza di regressione fornisce una quantità utile interpretata come la variazione stimata del valore atteso di per un dato valore di . In particolare, ti dice la variazione del valore atteso di corrispondente ad un aumento di 1 unità in . Questa informazione non può essere dedotta dal solo coefficiente di correlazione.
Con una semplice regressione lineare (ovvero solo 1 covariata), la pendenza è la stessa della di Pearson se entrambe le variabili fossero prima standardizzate . (Per ulteriori informazioni, potresti trovare utile la mia risposta qui .) Quando stai facendo una regressione multipla, questo può essere più complicato a causa della multicollinearità , ecc.
Il coefficiente di correlazione misura la "tenuta" della relazione lineare tra due variabili ed è limitata tra -1 e 1, incluso. Le correlazioni vicine allo zero non rappresentano alcuna associazione lineare tra le variabili, mentre le correlazioni vicine a -1 o +1 indicano una relazione lineare forte. Intuitivamente, più è facile per te tracciare una linea di adattamento ottimale attraverso un diagramma a dispersione, più sono correlate.
La pendenza di regressione misura la "pendenza" della relazione lineare tra due variabili e può assumere qualsiasi valore compreso tra e . Le pendenze vicino allo zero indicano che la variabile di risposta (Y) cambia lentamente quando cambia la variabile del predittore (X). Pendenze che sono più lontane da zero (in direzione negativa o positiva) indicano che la risposta cambia più rapidamente al variare del predittore. Intuitivamente, se dovessi tracciare una linea della migliore misura attraverso un diagramma a dispersione, più è ripida, più la pendenza è da zero.
Quindi il coefficiente di correlazione e la pendenza di regressione DEVONO avere lo stesso segno (+ o -), ma non avranno quasi mai lo stesso valore.
Per semplicità, questa risposta presuppone una regressione lineare semplice.
Il coefficiente di correlazione di Pearson è senza dimensioni e scalato tra -1 e 1 indipendentemente dalla dimensione e dalla scala delle variabili di input.
Se (per esempio) inserisci una massa in grammi o chilogrammi, non fa alcuna differenza per il valore di , mentre ciò farà una differenza enorme per il gradiente / pendenza (che ha dimensione e viene ridimensionato di conseguenza ... allo stesso modo, esso non farebbe differenza per se la scala fosse regolata in qualche modo, incluso usando invece sterline o tonnellate).
Una semplice dimostrazione (scuse per l'uso di Python!):
import numpy as np
x = [10, 20, 30, 40]
y = [3, 5, 10, 11]
np.corrcoef(x,y)[0][1]
x = [1, 2, 3, 4]
np.corrcoef(x,y)[0][1]
mostra che anche se la pendenza è stata aumentata di un fattore 10.
Devo confessare che è un trucco chiaro che viene scalato tra -1 e 1 (uno di quei casi in cui il numeratore non può mai avere un valore assoluto maggiore del denominatore).
Come sopra descritto da @Macro, la pendenza , quindi hai ragione nell'intuire che la di Pearson è correlata alla pendenza, ma solo se regolata secondo alle deviazioni standard (che ripristina efficacemente le dimensioni e le scale!).
All'inizio ho pensato che fosse strano che la formula sembrasse suggerire che una linea leggermente allentata (bassa ) producesse un gradiente più basso; poi ho tracciato un esempio e mi sono reso conto che, dato un gradiente, variando la "scioltezza" risulta una riduzione di ma questo è compensato da un aumento proporzionale di .
Nel grafico seguente, vengono tracciati quattro set di dati :

Si può vedere che la varianza influenza senza influire necessariamente su , e le unità di misura possono influenzare la scala e quindi senza influenzare