Perché i residui nella regressione lineare si sommano sempre a zero quando è inclusa un'intercettazione?


14

Sto seguendo un corso sui modelli di regressione e una delle proprietà fornite per la regressione lineare è che i residui si sommano sempre a zero quando viene inclusa un'intercettazione.

Qualcuno può fornire una buona spiegazione del perché questo è il caso?


3
Potresti prima ponderare la domanda strettamente correlata ma più semplice del perché in un campione univariato, i residui che ottieni sottraendo la media del campione da ogni valore si sommano anche a 0. (Prova a seguire l'algebra attraverso se puoi.)
Glen_b - Ripristina Monica

3
Non appena si riconosce che "somma a zero" significa "ortogonale a una delle variabili esplicative" la risposta diventa geometricamente ovvia.
whuber

Risposte:


18

Ciò deriva direttamente dalle equazioni normali, ovvero le equazioni che lo stimatore OLS risolve,

X(yXb)e=0

Il vettore all'interno delle parentesi è ovviamente il vettore residuo o la proiezione di sul complemento ortogonale dello spazio della colonna di , se ti piace l'algebra lineare. Ora includere un vettore di quelli nella matrice , che tra l'altro non deve essere nella prima colonna come è fatto convenzionalmente, porta a X XyXX

1e=0i=1nei=0

Nel problema a due variabili questo è ancora più semplice da vedere, poiché minimizzare la somma dei residui quadrati ci porta a

i=1n(yiabxi)=0

quando prendiamo il derivato rispetto all'intercetta. Da questo poi procediamo per ottenere lo stimatore familiare

a=y¯bx¯

dove ancora una volta vediamo che la costruzione dei nostri stimatori impone questa condizione.


17

Nel caso in cui stai cercando una spiegazione piuttosto intuitiva.

In un certo senso, il modello di regressione lineare non è altro che un mezzo di fantasia. Per trovare la media aritmetica su alcuni valori , troviamo un valore che è una misura della centralità in un senso che la somma di tutte le deviazioni (dove ogni deviazione è definita come ) a destra del valore medio sono uguali alla somma di tutte le deviazioni a sinistra di quella media. Non esiste una ragione intrinseca per cui questa misura sia buona, figuriamoci il modo migliore per descrivere la media di un campione, ma è certamente intuitiva e pratica. Il punto importante è che, definendo la media aritmetica in questo modo, ne consegue necessariamente che una volta costruita la media aritmetica, tutte le deviazioni da tale media devono essere sommate a zero per definizione!x¯x1,x2,,xnui=xix¯

Nella regressione lineare, questo non è diverso. Adattiamo la linea in modo tale che la somma di tutte le differenze tra i nostri valori adattati (che si trovano sulla linea di regressione) e i valori effettivi che si trovano sopra la linea sia esattamente uguale alla somma di tutte le differenze tra la linea di regressione e tutti i valori al di sotto del linea. Ancora una volta, non esiste una ragione intrinseca, perché questo è il modo migliore per costruire una soluzione, ma è semplice e intuitivamente attraente. Proprio come con la media aritmetica: costruendo i nostri valori adattati in questo modo, ne consegue necessariamente, per costruzione, che tutte le deviazioni da quella linea devono essere sommate a zero perché altrimenti questa non sarebbe una regressione OLS.


2
+1 per una risposta semplice, intuitiva e intuitiva!

3

Quando un'intercettazione è inclusa nella regressione lineare multipla, Nella regressione dei minimi quadrati, la somma dei quadrati degli errori è ridotta al minimo. Prendi il parziale derivata di SSE rispetto a e impostandola su zero.

y^i=β0+β1xi,1+β2xi,2++βpxi,p
SSE=i=1n(ei)2=i=1n(yiyi^)2=i=1n(yiβ0β1xi,1β2xi,2βpxi,p)2
β0
SSEβ0=i=1n2(yiβ0β1xi,1β2xi,2βpxi,p)1(1)=2i=1nei=0
Quindi, i residui si sommano sempre a zero quando un'intercettazione è inclusa nella regressione lineare.


1

Un'osservazione chiave è che, poiché il modello ha intercetta, , che è la prima colonna della matrice di progettazione , può essere scritta come dove è un vettore di colonna con tutti zeri tranne il primo componente. Inoltre, nella notazione matriciale, la somma dei residui è solo .1X

1=Xe,
e1T(yy^)

Pertanto,

1T(yy^)=1T(IH)y=eTXT(IX(XTX)1XT)y=eT(XTXTX(XTX)1XT)y=eT(XTXT)y=0.


0

Una derivazione semplice usando l'algebra matriciale:

e può essere scritto come1Te

Poi

1Te=1T(Mxy) dove è la matrice ortogonale. Poiché è simmetrico, possiamo riorganizzare in modo che MxMx(Mx1)Ty

che è uguale a zero se e sono ortogonali, il che è il caso se la matrice dei regressori contiene l'intercetta (un vettore di , in effetti).Mx1x1


Non penso sia giusto.
Michael R. Chernick,

Se spieghi perché, allora sarò felice di imparare qualcosa
Mino,

0
  1. ei=yi[1,X][a,b]=yiXba=via
  2. ddaei2ei1=via=0 soa^=1nvi
  3. ei=ivia=ivinnivi=0

..

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.