L'equivalenza della correlazione del campione e della statistica R per la regressione lineare semplice


10

Si afferma spesso che il quadrato della correlazione del campione è equivalente al coefficiente di determinazione per la regressione lineare semplice. Non sono stato in grado di dimostrarlo da solo e apprezzerei una prova completa di questo fatto.r2R2


1
Se questa è una domanda di studio autonomo, aggiungi il tag appropriato.
Andy,

Questa domanda chiede anche perché . R2=r2
Silverfish,

Risposte:


8

Sembra che ci sia qualche variazione nella notazione: in una semplice regressione lineare, di solito ho visto la frase "coefficiente di correlazione del campione" con il simbolo come riferimento alla correlazione tra i valori e osservati . Questa è la notazione che ho adottato per questa risposta. Ho anche visto la stessa frase e lo stesso simbolo usati per fare riferimento alla correlazione tra osservato e montato ; nella mia risposta ho fatto riferimento a questo come il "coefficiente di correlazione multipla" e usato il simbolo . Questa risposta spiega perché il coefficiente di determinazione è sia il quadrato di sia il quadrato dix y y y R R Rrxyyy^RrR, quindi non dovrebbe importare quale utilizzo era previsto.

Il risultato segue in una riga di algebra una volta stabiliti alcuni fatti chiari sulla correlazione e sul significato di , quindi potresti preferire saltare all'equazione inscatolata. Presumo che non dobbiamo dimostrare le proprietà di base della covarianza e della varianza, in particolare: Rr2R

Cov(aX+b,Y)=aCov(X,Y)
Var(aX+b)=a2Var(X)

Nota che il secondo può essere derivato dal primo, una volta che sappiamo che la covarianza è simmetrica e che . Da qui deriviamo un altro fatto di base, sulla correlazione. Per e fintanto che e hanno varianze diverse da zero,a 0 X YVar(X)=Cov(X,X)a0XY

Cor(aX+b,Y)=Cov(aX+b,Y)Var(aX+b)Var(Y)=aa2×Cov(X,Y)Var(X)Var(Y)Cor(aX+b,Y)=sgn(a)Cor(X,Y)

Qui è la funzione signum o sign : il suo valore è se e se . È anche vero che se , ma quel caso non ci riguarda: sarebbe una costante, quindi in il denominatore e non possiamo calcolare la correlazione. Gli argomenti di simmetria consentono di generalizzare questo risultato, per :sgn ( a ) = + 1 a > 0 sgn ( a ) = - 1 a < 0 sgn ( a ) = 0 a = 0 a X + b Var ( a X + b ) = 0 a ,sgn(a)sgn(a)=+1a>0sgn(a)=1a<0sgn(a)=0a=0aX+bVar(aX+b)=0a,c0

Cor(aX+b,cY+d)=sgn(a)sgn(c)Cor(X,Y)

Non avremo bisogno di questa formula più generale per rispondere alla domanda attuale, ma la includo per enfatizzare la geometria della situazione: afferma semplicemente che la correlazione è invariata quando una variabile viene ridimensionata o tradotta, ma inverte il segno quando una variabile è riflessa.

Dobbiamo un fatto più: per un modello lineare che include un termine costante, il coefficiente di determinazione è il quadrato del coefficiente di correlazione multipla , che è la correlazione tra le risposte osservate e montato valori del modello . Questo vale sia per il multiplo e regressioni semplici, ma cerchiamo di restringiamo la nostra attenzione al semplice modello lineare . Il risultato deriva dall'osservazione che è una versione ridimensionata, possibilmente riflessa e tradotta di : R Y Y Y = β 0 + β 1 X Y XR2RYY^Y^=β^0+β^1XY^X

R=Cor(Y^,Y)=Cor(β^0+β^1X,Y)=sgn(β^1)Cor(X,Y)=sgn(β^1)r

Quindi dove il segno corrisponde al segno della pendenza stimata, che garantisce che non sia negativo. Chiaramente .R R 2 = r 2R=±rRR2=r2

L'argomento precedente è stato semplificato non considerando le somme di quadrati. Per raggiungere questo obiettivo, ho ignorato i dettagli della relazione tra , che normalmente pensiamo in termini di somme di quadrati e , per cui pensiamo alle correlazioni delle risposte adattate e osservate. I simboli fanno sembrare tautologico la relazione ma non è così, e la relazione si interrompe se non esiste un termine di intercettazione nel modello! Darò un breve schizzo di un argomento geometrico sulla relazione tra e tratto da una domanda diversa : il diagramma è disegnato nello spazio soggetto dimensionale R R 2 = ( R ) 2 R R 2 n X 1 nR2RR2=(R)2RR2n, quindi ogni asse (non mostrato) rappresenta una singola unità di osservazione e le variabili sono mostrate come vettori. Le colonne della matrice di progettazione sono il vettore (per il termine costante) e il vettore delle osservazioni della variabile esplicativa, quindi lo spazio della colonna è un piano bidimensionale.X1n

Vettori nello spazio soggetto di regressione multipla

Il montato è la proiezione ortogonale del osservato nello spazio della colonna di . Ciò significa che il vettore dei residui è perpendicolare al piano, e quindi a . Il prodotto punto è . Dato che i residui si sommano a zero e , allora modo che sia le risposte adattate che quelle osservate avere media . Le linee tratteggiate nel diagramma, e YXe=y - y 1n0=1ne=Σ n i = 1 eiYi= ^ Y i +eiΣ n i = 1 YiY^YXe=yy^1n0=1ne=i=1neiYi=Yi^+ei ˉ Y Y - ˉ Y 1 n Yi=1nYi=i=1nYi^Y¯YY¯1n θ RY^Y¯1n , sono quindi le centrati vettori per le risposte osservate e montati, e il coseno dell'angolo tra loro è la loro correlazione .θR

Il triangolo formato da questi vettori con il vettore dei residui è ad angolo retto poiché trova nell'appartamento ma è ortogonale ad esso. Applicazione di Pitagora:eY^Y¯1ne

YY¯1n2=YY^2+Y^Y¯1n2

Questa è solo la decomposizione delle somme dei quadrati, . La formula convenzionale per il coefficiente di determinazione è che in questo triangolo è modo è infatti il quadrato di . Potresti avere più familiarità con la formula , che dà immediatamente , ma nota che è più generale e (come abbiamo appena visto) si riduce a 1 - S S residuoSStotal=SSresidual+SSregression 1-sin2θ=cos2θRR2=SS regressione1SSresidualSStotal1sin2θ=cos2θR cos2θ1-SS residuoR2=SSregressionSStotalcos2θ SS regressione1SSresidualSStotalSSregressionSStotal se nel modello è incluso un termine costante .


+1 grazie per gli sforzi compiuti per rendere piacevole la matematica e il grafico !!
Haitao Du,

4

Il è definito come Il coefficiente di correlazione del campione quadrato: è equivalente, poiché può essere facilmente verificato usando: (vedi Verbeek , §2.4)R 2 = V ( y i )R2

R2=V^(y^i)V^(yi)=1/(N1)i=1N(y^iy¯)21/(N1)i=1N(yiy¯)2=ESSTSS
V(yi)=V( y i)+V(ei)
r2(yi,y^i)=(i=1N(yiy¯)(y^iy¯))2(i=1N(yiy¯)2)(i=1N(y^iy¯)2)
V^(yi)=V^(y^i)+V^(ei)

Potresti aggiungere qualche dettaglio in più. Ho provato a provarlo, ma senza successo ...
Un vecchio nel mare.
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.