Regressione lineare: * Perché * puoi partizionare somme di quadrati?


9

Questo post fa riferimento a un modello di regressione lineare bivariata, . Ho sempre preso il partizionamento della somma totale dei quadrati (SSTO) in somma dei quadrati per errore (SSE) e somma dei quadrati per il modello (SSR) sulla fede, ma una volta che ho iniziato davvero a pensarci, non capisco perché funziona ...Yi=β0+β1xi

La parte che non capisco:

yi : un valore osservato di y

yiy¯ : La media di tutti osservati syi

y^i : il valore adattato / previsto di y per una data osservazione x

yiy^i : residuo / errore (se quadrato e sommato per tutte le osservazioni si tratta di SSE)

y^iy¯ : quanto il valore adattato del modello differisce dalla media (se al quadrato e sommato per tutte le osservazioni si tratta di SSR)

yiy¯ : quanto un valore osservato differisce dalla media (se sommato e sommato per tutte le osservazioni, questo è SSTO).

Posso capire perché, per una singola osservazione, senza quadrare nulla, . E capisco perché, se vuoi sommare le cose su tutte le osservazioni, devi quadrarle o faranno aggiungere fino a 0.(yiy¯)=(y^iy¯)+(yiy^i)

La parte che non capisco è perché (es. SSTO = SSR + SSE). Sembra che se hai una situazione in cui , quindi , non . Perché non è questo il caso qui? A = B + C A 2 = B 2 + 2 B C + C 2 A 2 = B 2 + C 2(yiy¯)2=(y^iy¯)2+(yiy^i)2A=B+CA2=B2+2BC+C2A2=B2+C2


5
Hai lasciato fuori la sommatoria nel tuo ultimo paragrafo. SST = SSR + SSE è una somma su , ma la tua uguaglianza che hai scritto immediatamente prima non è effettivamente vera senza il segno di sommatoria lì. i
Glen_b

1
Nel tuo ultimo paragrafo, vuoi (es. SSTO = SSR + SSE) non (es. SSTO = SSR + SSE). "eg" è un'abbreviazione per la frase latina " exempli gratia ", o "per esempio" in inglese. "ie" è un'abbreviazione di " id est " e può essere letto in inglese come "cioè".
Matthew Gunn,

Risposte:


9

Sembra che se hai una situazione in cui , allora , non . Perché non è questo il caso qui?A 2 = B 2 + 2 B C + C 2 A 2 = B 2 + C 2A=B+CA2=B2+2BC+C2A2=B2+C2

Concettualmente, l'idea è che perché e sono ortogonali (cioè sono perpendicolari).B CBC=0BC


Nel contesto della regressione lineare qui, i residui sono ortogonali alla previsione sminuita . La previsione dalla regressione lineare crea una decomposizione ortogonale di in un senso simile poiché è una decomposizione ortogonale.y i - ˉ y y ( 3 , 4 ) = ( 3 , 0 ) + ( 0 , 4 )ϵi=yiy^iy^iy¯y(3,4)=(3,0)+(0,4)

Versione algebra lineare:

Permettere:

z=[y1y¯y2y¯yny¯]z^=[y^1y¯y^2y¯y^ny¯]ϵ=[y1y^1y2y^2yny^n]=zz^

La regressione lineare (con una costante inclusa) si decompone nella somma di due vettori: una previsione e un residuozz^ϵ

z=z^+ϵ

Let denota il prodotto punto . (Più in generale, può essere il prodotto interno .).,.X,Y E[XY]

z,z=z^+ϵ,z^+ϵ=z^,z^+2z^,ϵ+ϵ,ϵ=z^,z^+ϵ,ϵ

Dove l'ultima riga deriva dal fatto che (ovvero che e sono ortogonali). Puoi provare e sono ortogonali in base al modo in cui la regressione dei minimi quadrati ordinaria costruisce .z^,ϵ=0z^ϵ=zz^z^ϵz^

z^ è la proiezione lineare di sullo spazio secondario definito dall'intervallo lineare dei regressori , , ecc .... residuo è ortogonale all'intero sottospazio, quindi (che si trova nell'intervallo di , , ecc ...) è ortogonale a .zx1x2ϵz^x1x2ϵ


Si noti che come ho definito come il prodotto punto, è semplicemente un altro modo di scrivere (ovvero SSTO = SSR + SSE).,.z,z=z^,z^+ϵ,ϵi(yiy¯)2=i(y^iy¯)2+i(yiy^i)2


8

Il punto sta mostrando che alcuni vettori sono ortogonali e quindi usano il teorema di Pitagora.

Consideriamo la regressione lineare multivariata . Sappiamo che lo stimatore OLS è . Ora considera il preventivoY=Xβ+ϵβ^=(XtX)1XtY

Y^=Xβ^=X(XtX)1XtY=HY (la matrice H è anche chiamata matrice "hat")

dove è una matrice di proiezione ortogonale di Y su . Ora abbiamoHS(X)

YY^=YHY=(IH)Y

dove è una matrice di proiezione sul complemento ortogonale di che è . Quindi sappiamo che e sono ortogonali.(IH)S(X)S(X)YY^Y^

Ora considera un sottomodelloY=X0β0+ϵ

dove e allo stesso modo abbiamo lo stimatore OLS e stima e con matrice di proiezione su . Allo stesso modo abbiamo che e sono ortogonali. E adessoX=[X0|X1]β0^Y0^H0S(X0)YY0^Y0^

Y^Y0^=HYH0Y=HYH0HY=(IH0)HY

dove di nuovo è una matrice di proiezione ortogonale sul complemento di che è . Quindi abbiamo ortogonalità di e . Quindi alla fine abbiamo(IH0)S(X0)S(X0)Y^Y0^Y0^

||YY^||2=||Y||2||Y^||2=||YY0^||2+||Y0^||2||Y^Y0^||2||Y0^||2

e infine||YY0^||2=||YY^||2+||Y^Y0^||2

Infine, la media è semplicemente il quando si considera il modello nullo .Y¯Y0^Y=β0+e


La ringrazio per la risposta! Che cos'è S () (come in S (X) nel tuo post)?
Bluemouse,

S(X) è un sottospazio generato dalle colonne della matriceX
Łukasz Grad
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.