Interpretazione geometrica del coefficiente di correlazione multipla e coefficiente di determinazione


24

Sono interessato al significato geometrico della correlazione multipla e del coefficiente di determinazione nella regressione o in notazione vettoriale,RR2yi=β1+β2x2,i++βkxk,i+ϵi

y=Xβ+ϵ

Qui la matrice di progettazione X ha n righe e k colonne, di cui la prima è x1=1n , un vettore di 1 che corrisponde all'intercetta β1 .

La geometria è più interessante nello spazio soggetto n dimensionale piuttosto che nello spazio variabile k dimensionale. Definisci la matrice del cappello:

H=X(XX)1X

Questa è una proiezione ortogonale sullo spazio della colonna di X , ovvero il piano attraverso l'origine attraversato dai vettori k che rappresentano ciascuna variabile xi , il primo dei quali è 1n . Quindi H proietta il vettore delle risposte osservate y sulla sua "ombra" sul piano, il vettore dei valori adattati y^=Hy , e se noi guardando lungo il percorso della proiezione vediamo il vettore dei residui e=yy^ costituisce il terzo lato di un triangolo. Questo dovrebbe fornirci due percorsi per un'interpretazione geometrica di R2:

  1. Il quadrato del coefficiente di correlazione multipla, R , che è definito come la correlazione tra y e y^ . Questo apparirà geometricamente come il coseno di un angolo.
  2. In termini di lunghezze dei vettori: ad esempio SSresidual=i=1nei2=e2 .

Sarei felice di vedere un breve resoconto che spiega:

  • I dettagli più fini per (1) e (2),
  • Perché (1) e (2) sono equivalenti,
  • In breve, come l'intuizione geometrica ci consente di visualizzare le proprietà di base di R2 , ad esempio perché va a 1 quando la varianza del rumore va a 0. (Dopotutto, se non riusciamo a intuire dalla nostra visualizzazione, non è altro che un bella immagine.)

Apprezzo che sia più semplice se le variabili sono centrate per prime, il che rimuove l'intercettazione dalla domanda. Tuttavia, nella maggior parte degli account di libri di testo che introducono una regressione multipla, la matrice di progettazione è come ho indicato. Ovviamente va bene se un'esposizione scava nello spazio attraversato dalle variabili centrate, ma per approfondire l'algebra lineare del libro di testo, sarebbe molto utile ricollegarlo a ciò che sta accadendo geometricamente nella situazione non centrata. Una risposta davvero perspicace potrebbe spiegare che cosa sta esattamente analizzando geometricamente quando il termine dell'intercettazione viene eliminato , ovvero quando il vettore1 nX1nviene rimosso dal set di spanning. Non credo che questo ultimo punto possa essere affrontato considerando solo le variabili centrate.

Risposte:


47

Se c'è un termine costante nel modello, allora trova nello spazio di colonna di (così come , che sarà utile in seguito). Il montato è la proiezione ortogonale del osservato sul piano formato dallo spazio di quella colonna. Ciò significa che il vettore dei residui è perpendicolare al piano, e quindi a . Considerando il prodotto punto possiamo vedere , quindi i componenti di devono riassumere a zero. Dato che lo concludiamo1nˉ Y 1 n Y Y e = y - y 1 n Σ n i = 1 e i = 0 e Y i = ^ Y i + e i Σ n i = 1 Y i = Σ n i = 1 ^ Y io ˉ YXY¯1nY^Ye=yy^1ni=1nei=0eYi=Yi^+eii=1nYi=i=1nYi^ modo che sia le risposte adattate che quelle osservate abbiano un significato .Y¯

Vettori nello spazio soggetto di regressione multipla

Le linee tratteggiate nel diagramma rappresentano e , che sono i vettori centrati per le risposte osservate e adattate. Il coseno dell'angolo tra questi vettori sarà quindi la correlazione tra e , che per definizione è il coefficiente di correlazione multipla . Il triangolo che formano questi vettori con il vettore dei residui è ad angolo retto poiché trova nell'appartamento ma è ortogonale ad esso. Quindi:Y - ˉ Y 1 n θ Y Y R Y - ˉ Y 1 n eYY¯1nY^Y¯1nθYY^RY^Y¯1ne

R=cos(θ)=adjhyp=Y^Y¯1nYY¯1n

Potremmo anche applicare Pitagora al triangolo:

YY¯1n2=YY^2+Y^Y¯1n2

Quale può essere più familiare come:

i=1n(YiY¯)2=i=1n(YiY^i)2+i=1n(Y^iY¯)2

Questa è la decomposizione delle somme di quadrati, .SStotal=SSresidual+SSregression

La definizione standard per il coefficiente di determinazione è:

R2=1SSresidualSStotal=1i=1n(yiy^i)2i=1n(yiy¯)2=1YY^2YY¯1n2

Quando le somme di quadrati possono essere suddivise in partizioni, è necessaria un'algebra semplice per dimostrare che ciò equivale alla formulazione "proporzione della varianza spiegata",

R2=SSregressionSStotal=i=1n(y^iy¯)2i=1n(yiy¯)2=Y^Y¯1n2YY¯1n2

C'è un modo geometrico di vederlo dal triangolo, con un'algebra minima. La formula di definizione dà e con la trigonometria di base possiamo semplificare questo a . Questo è il legame tra e .R2=1sin2(θ)cos2(θ)R2R

Nota quanto sia stato vitale per questa analisi un termine di intercettazione, in modo che fosse nello spazio della colonna. Senza questo, i residui non sarebbero sommati a zero, e la media dei valori adattati non avrebbero coinciso con la media di . In quel caso non avremmo potuto disegnare il triangolo; le somme dei quadrati non si sarebbero decomposte in modo pitagorico; non avrebbe avuto la forma più frequentemente citata né essere la piazza di . In questa situazione, alcuni software (incluso ) usano una formula diversa per tutto .1nYR2SSreg/SStotalRRR2


1
+1 Scrittura e figura molto belle. Sono sorpreso che abbia solo il mio unico voto solitario.
ameba dice Ripristina Monica il

2
+1. Nota che la figura della tua risposta, con "spazio colonna X", Y, Ypred come vettori ecc. È ciò che è noto nelle statistiche multivariate come "rappresentazione (ridotta) dello spazio soggetto" ( vedi , con ulteriori collegamenti dove l'ho usato ).
ttnphns,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.