Nella semplice regressione lineare, da dove viene la formula per la varianza dei residui?


21

Secondo un testo che sto usando, la formula per la varianza del residuo è data da:ith

σ2(11n(xix¯)2Sxx)

Trovo che questo sia difficile da credere dal momento che la residuo è la differenza tra il valore osservato e il valore stimato; se si calcolasse la varianza della differenza, almeno mi aspetterei qualche "vantaggio" nell'espressione risultante. Qualsiasi aiuto nella comprensione della derivazione sarebbe apprezzato.ithithith


È possibile che alcuni segni " + " nel testo vengano sottoposti a rendering errato (o letti erroneamente) come segni " "?
whuber

Ci avevo pensato, ma è successo due volte nel testo (2 diversi capitoli), quindi ho pensato che fosse improbabile. Certo, una derivazione della formula sarebbe d'aiuto! :)
Eric,

I negativi sono il risultato della correlazione positiva tra un'osservazione e il suo valore adattato, che riduce la varianza della differenza.
Glen_b -Restate Monica,

@Glen Grazie per aver spiegato perché si scopre che la formula ha senso, insieme alla derivazione della matrice di seguito.
Eric,

Risposte:


27

L'intuizione sui segni "più" relativi alla varianza (dal fatto che anche quando calcoliamo la varianza di una differenza di variabili casuali indipendenti, aggiungiamo le loro varianze) è corretta ma fatalmente incompleta: se le variabili casuali coinvolte non sono indipendenti , quindi sono coinvolte anche le covarianze e le covarianze possono essere negative. Esiste un'espressione che è quasi come l'espressione nella domanda che si pensava che "dovrebbe" essere dall'OP (e da me), ed è la varianza dell'errore di predizione , denotarlo , dove :y 0 = β 0 + β 1 x 0 + u 0e0=y0y^0y0=β0+β1x0+u0

Var(e0)=σ2(1+1n+(x0x¯)2Sxx)

La differenza critica tra la varianza dell'errore di previsione e la varianza dell'errore di stima (cioè del residuo), è che il termine di errore dell'osservazione prevista non è correlato con lo stimatore , poiché il valore non è stato utilizzato in costruire lo stimatore e calcolare le stime, essendo un valore fuori campione.y0

L'algebra di entrambi procede esattamente allo stesso modo fino a un punto (usando invece di ), ma poi diverge. In particolare:0i

Nella semplice regressione lineare , , la varianza dello stimatore è ancora Var ( u i ) = σ 2 β = ( β 0 , p 1 ) 'yi=β0+β1xi+uiVar(ui)=σ2β^=(β^0,β^1)

Var(β^)=σ2(XX)1

abbiamo

XX=[nxixixi2]

e così

(XX)1=[xi2xixin][nxi2(xi)2]1

abbiamo

[nxi2(xi)2]=[nxi2n2x¯2]=n[xi2nx¯2]=n(xi2x¯2)nSxx

Così

(XX)1=[(1/n)xi2x¯x¯1](1/Sxx)

che significa che

Var(β^0)=σ2(1nxi2) (1/Sxx)=σ2nSxx+nx¯2Sxx=σ2(1n+x¯2Sxx)

Var(β^1)=σ2(1/Sxx)

Cov(β^0,β^1)=σ2(x¯/Sxx)

L' -esimo residuo è definito comei

u^i=yiy^i=(β0β^0)+(β1β^1)xi+ui

I coefficienti effettivi sono trattati come costanti, il regressore è fisso (o condizionato su di esso) e ha zero covarianza con il termine di errore, ma gli stimatori sono correlati con il termine di errore, perché gli stimatori contengono la variabile dipendente e la variabile dipendente contiene il termine di errore. Quindi abbiamo

Var(u^i)=[Var(ui)+Var(β^0)+xi2Var(β^1)+2xiCov(β^0,β^1)]+2Cov([(β0β^0)+(β1β^1)xi],ui)

=[σ2+σ2(1n+x¯2Sxx)+xi2σ2(1/Sxx)+2Cov([(β0β^0)+(β1β^1)xi],ui)

Preparalo un po 'per ottenerlo

Var(u^i)=[σ2(1+1n+(xix¯)2Sxx)]+2Cov([(β0β^0)+(β1β^1)xi],ui)

Il termine tra parentesi grandi ha esattamente la stessa struttura con la varianza dell'errore di predizione, con l'unica modifica che al posto di avremo (e la varianza sarà quella di e non di ). L'ultimo termine di covarianza è zero per l'errore di previsione perché e quindi non è incluso negli stimatori, ma non zero per l'errore di stima perché e quindi fa parte del campione e quindi è incluso nel estimatore. abbiamoxix0e0u^iy0u0yiui

2Cov([(β0β^0)+(β1β^1)xi],ui)=2E([(β0β^0)+(β1β^1)xi]ui)

=2E(β^0ui)2xiE(β^1ui)=2E([y¯β^1x¯]ui)2xiE(β^1ui)

l'ultima sostituzione da come viene calcolato . Proseguendo,β^0

...=2E(y¯ui)2(xix¯)E(β^1ui)=2σ2n2(xix¯)E[(xix¯)(yiy¯)Sxxui]

=2σ2n2(xix¯)Sxx[(xix¯)E(yiuiy¯ui)]

=2σ2n2(xix¯)Sxx[σ2nji(xjx¯)+(xix¯)σ2(11n)]

=2σ2n2(xix¯)Sxx[σ2n(xix¯)+(xix¯)σ2]

=2σ2n2(xix¯)Sxx[0+(xix¯)σ2]=2σ2n2σ2(xix¯)2Sxx

Inserendo questo nell'espressione per la varianza del residuo, otteniamo

Var(u^i)=σ2(11n(xix¯)2Sxx)

Quindi cappello al testo che l'OP sta usando.

(Ho saltato alcune manipolazioni algebriche, non c'è da stupirsi che algebra OLS venga insegnata sempre meno in questi giorni ...)

ALCUNI INTUIZIONI

Quindi sembra che ciò che funziona "contro" noi (varianza maggiore) quando si prevede, funziona "per noi" (varianza inferiore) quando si stima. Questo è un buon punto di partenza per ponderare perché un adattamento eccellente può essere un cattivo segno per le capacità di predizione del modello (per quanto controintuitivo possa sembrare ...).
Il fatto che stiamo stimando il valore atteso del regressore, riduce la varianza di . Perché? perché stimando , "chiudiamo gli occhi" a una certa variabilità dell'errore esistente nel campione, poiché essenzialmente stimiamo un valore atteso. Inoltre, maggiore è la deviazione di un'osservazione di un regressore dalla media campionaria del regressore,1/nla varianza del residuo associato a questa osservazione sarà ... più deviante è l'osservazione, meno deviante è il suo residuo ... È la variabilità dei regressori che lavora per noi, "sostituendo" l'errore sconosciuto- variabilità.

Ma va bene per la stima . Per la previsione , le stesse cose si rivolgono contro di noi: ora, non tenendo conto, per quanto imperfettamente, della variabilità in (poiché vogliamo prevederla), i nostri stimatori imperfetti ottenuti dal campione mostrano i loro punti deboli: abbiamo stimato che media campionaria, non conosciamo il vero valore atteso - la varianza aumenta. Abbiamo un che è lontano dalla media del campione calcolato dalle altre osservazioni -peccato, la nostra varianza dell'errore di previsione ottiene un altro impulso, perché il predetto tenderà ad andare fuori strada ... in più linguaggio scientifico "predittori ottimali nel senso di ridotta varianza dell'errore di previsione, rappresentano ay0x0 y^0restringimento verso la media della variabile sotto previsione ". Non cerchiamo di replicare la variabilità della variabile dipendente - cerchiamo solo di rimanere" vicini alla media ".


Grazie per una risposta molto chiara! Sono contento che la mia "intuizione" sia stata corretta.
Eric,

Alecos, non penso proprio che sia giusto.
Glen_b -Restate Monica

@Alecos l'errore sta nel ritenere che le stime dei parametri non siano correlate al termine dell'errore. Questa parte: non è corretto. Var(u^i)=Var(ui)+Var(β^0)+xi2Var(β^1)+2xiCov(β^0,β^1)
Glen_b -Restate Monica

@Eric, mi scuso per averti ingannato prima. Ho cercato di fornire alcune intuizioni per entrambe le formule.
Alecos Papadopoulos,

+1 Puoi capire perché ho fatto il caso di regressione multipla per questo ... grazie per lo sforzo extra di fare il caso di regressione semplice.
Glen_b -Restate Monica

19

Ci scusiamo per la risposta un po 'concisa, forse troppo astratta e priva di una quantità desiderabile di esposizione intuitiva, ma proverò a tornare e aggiungere qualche dettaglio in seguito. Almeno è breve.

Dato ,H=X(XTX)1XT

Var(yy^)=Var((IH)y)=(IH)Var(y)(IH)T=σ2(IH)2=σ2(IH)

Quindi

Var(yiy^i)=σ2(1hii)

Nel caso di una semplice regressione lineare ... questo dà la risposta alla tua domanda.

Anche questa risposta ha un senso: poiché è correlato positivamente con , la varianza della differenza dovrebbe essere inferiore alla somma delle varianze.y^iyi

-

Modifica: spiegazione del perché è idempotente .(IH)

(i) è idempotente:H

H2=X(XTX)1XTX(XTX)1XT =X [(XTX)1XTX] (XTX)1XT=X(XTX)1XT=H

(ii)(IH)2=I2IHHI+H2=I2H+H=IH


1
Questa è una derivazione molto bella per la sua semplicità, anche se un passo che non mi è chiaro è perché . Forse quando espandi un po 'la tua risposta, come hai intenzione di fare comunque, potresti dire qualcosa in proposito? (IH)2=(IH)
Jake Westfall,

@Jake Aggiunti un paio di righe alla fine
Glen_b -Reinstate Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.