Perché il prodotto dei coefficienti di regressione bivariata della linea on- linea -on- è uguale al quadrato della correlazione?


11

C'è un modello di regressione in cui Y=a+bX con a=1.6 e b=0.4 , che ha un coefficiente di correlazione di r=0.60302 .

Se poi X e Y vengono invertiti e l'equazione diventa X = c + dYX=c+dY dove c=0.4545 e d=0.9091 , ha anche un valore r di 0.60302 .

Spero che qualcuno possa spiegare perché (d×b)0.5 è anche 0.60302 .

Risposte:



10

Dai un'occhiata a Tredici modi per esaminare il coefficiente di correlazione - e in particolare i modi 3, 4, 5 saranno di tuo interesse.


2
Questo avrebbe probabilmente dovuto essere un commento. Si noti che il collegamento è morto. Ho aggiornato il link e fornito una citazione completa. Puoi elaborare o fornire ulteriori informazioni in modo che ciò sia ancora prezioso anche se il link dovesse tornare a mancare?
gung - Ripristina Monica

2
L'articolo di Rodgers & Nicewander è sintetizzato sul nostro sito all'indirizzo stats.stackexchange.com/q/70969/22228 .
whuber

3

Ricordiamo che molti testi introduttivi definiscono

Sxy=i=1n(xix¯)(yiy¯)

Quindi impostando come abbiamo e similmente .x S x x = n i = 1 ( x i - ˉ x ) 2 S y y = n i = 1 ( y i - ˉ y ) 2yxSxx=i=1n(xix¯)2Syy=i=1n(yiy¯)2

Formule per il coefficiente di correlazione , la pendenza della -on- regressione (vostro ) e la pendenza della -on- regressione (proprio ) sono spesso indicati come:y x b x y dryxbxyd

(1)r=SxySxxSyy(2)β^y on x=SxySxx(3)β^x on y=SxySyy

Quindi moltiplicando e si ottiene chiaramente il quadrato di :( 3 ) ( 1 )(2)(3)(1)

β^y on xβ^x on y=Sxy2SxxSyy=r2

In alternativa, i numeratori e i denominatori delle frazioni in , e sono spesso divisi per o modo che le cose siano inquadrate in termini di varianze e covarianze del campione o stimate. Ad esempio, da , il coefficiente di correlazione stimato è solo la covarianza stimata, ridimensionata in base alle deviazioni standard stimate:( 2 ) ( 3 ) n ( n - 1 ) ( 1 )(1)(2)(3)n(n1)(1)

(4)r=Corr^(X,Y)=Cov^(X,Y)SD(X)^SD(Y)^(5)β^y on x=Cov^(X,Y)Var(X)^(6)β^x on y=Cov^(X,Y)Var(Y)^

Scopriamo quindi immediatamente moltiplicando e quello( 6 )(5)(6)

β^y on xβ^x on y=Cov^(X,Y)2Var(X)^Var(Y)^=(Cov^(X,Y)SD(X)^SD(Y)^)2=r2

Potremmo invece aver riorganizzato per scrivere la covarianza come una correlazione "ingrandita":(4)

(7)Cov^(X,Y)=rSD(X)^SD(Y)^

Quindi sostituendo in e potremmo riscrivere i coefficienti di regressione come e . Moltiplicarli insieme produrrebbe anche , e questa è la soluzione di @ Karl. Scrivere le pendenze in questo modo aiuta a spiegare come possiamo vedere il coefficiente di correlazione come una pendenza di regressione standardizzata .(7)(5)(6)β^y on x=rSD^(y)SD^(x)β^x on y=rSD^(x)SD^(y)r2


Infine, nota che nel tuo caso ma questo perché la tua correlazione è stato positivo. Se la tua correlazione fosse negativa, allora dovresti prendere la radice negativa.r=bd=β^y on xβ^x on y

Per capire se la tua correlazione è positiva o negativa, devi semplicemente considerare il segno (più o meno) del tuo coefficiente di regressione - non importa se guardi -on-0 o -on- poiché i loro segni saranno gli stessi. Quindi puoi usare la formula:x x yyxxy

r=sgn(β^y on x)β^y on xβ^x on y

dove è la funzione signum , cioè è se la pendenza è positiva e se la pendenza è negativa.+ 1 - 1sgn+11


1
È possibile che questa mia risposta sia di interesse anche se non risponde esplicitamente alla domanda posta qui.
Dilip Sarwate,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.