L'intuizione sui segni "più" relativi alla varianza (dal fatto che anche quando calcoliamo la varianza di una differenza di variabili casuali indipendenti, aggiungiamo le loro varianze) è corretta ma fatalmente incompleta: se le variabili casuali coinvolte non sono indipendenti , quindi sono coinvolte anche le covarianze e le covarianze possono essere negative. Esiste un'espressione che è quasi come l'espressione nella domanda che si pensava che "dovrebbe" essere dall'OP (e da me), ed è la varianza dell'errore di predizione , denotarlo , dove :y 0 = β 0 + β 1 x 0 + u 0e0=y0−y^0y0=β0+β1x0+u0
Var(e0)=σ2⋅(1+1n+(x0−x¯)2Sxx)
La differenza critica tra la varianza dell'errore di previsione e la varianza dell'errore di stima (cioè del residuo), è che il termine di errore dell'osservazione prevista non è correlato con lo stimatore , poiché il valore non è stato utilizzato in costruire lo stimatore e calcolare le stime, essendo un valore fuori campione.y0
L'algebra di entrambi procede esattamente allo stesso modo fino a un punto (usando invece di ), ma poi diverge. In particolare:0i
Nella semplice regressione lineare , , la varianza dello stimatore è ancora Var ( u i ) = σ 2 β = ( β 0 , p 1 ) 'yio= β0+ β1Xio+ uioVar ( uio) = σ2β^= ( β^0, β^1)'
Var(β^)=σ2(X′X)−1
abbiamo
X′X=[n∑xi∑xi∑x2i]
e così
(X′X)−1=[∑x2i−∑xi−∑xin]⋅[n∑x2i−(∑xi)2]−1
abbiamo
[n∑x2i−(∑xi)2]=[n∑x2i−n2x¯2]=n[∑x2i−nx¯2]=n∑(x2i−x¯2)≡nSxx
Così
(X′X)−1=[(1/n)∑x2i−x¯−x¯1]⋅(1/Sxx)
che significa che
Var(β^0)=σ2(1n∑x2i)⋅ (1/Sxx)=σ2nSxx+nx¯2Sxx=σ2(1n+x¯2Sxx)
Var(β^1)=σ2(1/Sxx)
Cov(β^0,β^1)=−σ2(x¯/Sxx)
L' -esimo residuo è definito comei
u^i=yi−y^i=(β0−β^0)+(β1−β^1)xi+ui
I coefficienti effettivi sono trattati come costanti, il regressore è fisso (o condizionato su di esso) e ha zero covarianza con il termine di errore, ma gli stimatori sono correlati con il termine di errore, perché gli stimatori contengono la variabile dipendente e la variabile dipendente contiene il termine di errore. Quindi abbiamo
Var(u^i)=[Var(ui)+Var(β^0)+x2iVar(β^1)+2xiCov(β^0,β^1)]+2Cov([(β0−β^0)+(β1−β^1)xi],ui)
=[σ2+σ2(1n+x¯2Sxx)+x2iσ2(1/Sxx)+2Cov([(β0−β^0)+(β1−β^1)xi],ui)
Preparalo un po 'per ottenerlo
Var(u^i)=[σ2⋅(1+1n+(xi−x¯)2Sxx)]+2Cov([(β0−β^0)+(β1−β^1)xi],ui)
Il termine tra parentesi grandi ha esattamente la stessa struttura con la varianza dell'errore di predizione, con l'unica modifica che al posto di avremo (e la varianza sarà quella di e non di ). L'ultimo termine di covarianza è zero per l'errore di previsione perché e quindi non è incluso negli stimatori, ma non zero per l'errore di stima perché e quindi fa parte del campione e quindi è incluso nel estimatore. abbiamoxix0e0u^iy0u0yiui
2Cov([(β0−β^0)+(β1−β^1)xi],ui)=2E([(β0−β^0)+(β1−β^1)xi]ui)
=−2E(β^0ui)−2xiE(β^1ui)=−2E([y¯−β^1x¯]ui)−2xiE(β^1ui)
l'ultima sostituzione da come viene calcolato . Proseguendo,β^0
...=−2E(y¯ui)−2(xi−x¯)E(β^1ui)=−2σ2n−2(xi−x¯)E[∑(xi−x¯)(yi−y¯)Sxxui]
=−2σ2n−2(xi−x¯)Sxx[∑(xi−x¯)E(yiui−y¯ui)]
=−2σ2n−2(xi−x¯)Sxx[−σ2n∑j≠i(xj−x¯)+(xi−x¯)σ2(1−1n)]
=−2σ2n−2(xi−x¯)Sxx[−σ2n∑(xi−x¯)+(xi−x¯)σ2]
=−2σ2n−2(xi−x¯)Sxx[0+(xi−x¯)σ2]=−2σ2n−2σ2(xi−x¯)2Sxx
Inserendo questo nell'espressione per la varianza del residuo, otteniamo
Var(u^i)=σ2⋅(1−1n−(xi−x¯)2Sxx)
Quindi cappello al testo che l'OP sta usando.
(Ho saltato alcune manipolazioni algebriche, non c'è da stupirsi che algebra OLS venga insegnata sempre meno in questi giorni ...)
ALCUNI INTUIZIONI
Quindi sembra che ciò che funziona "contro" noi (varianza maggiore) quando si prevede, funziona "per noi" (varianza inferiore) quando si stima. Questo è un buon punto di partenza per ponderare perché un adattamento eccellente può essere un cattivo segno per le capacità di predizione del modello (per quanto controintuitivo possa sembrare ...).
Il fatto che stiamo stimando il valore atteso del regressore, riduce la varianza di . Perché? perché stimando , "chiudiamo gli occhi" a una certa variabilità dell'errore esistente nel campione, poiché essenzialmente stimiamo un valore atteso. Inoltre, maggiore è la deviazione di un'osservazione di un regressore dalla media campionaria del regressore,1/nla varianza del residuo associato a questa osservazione sarà ... più deviante è l'osservazione, meno deviante è il suo residuo ... È la variabilità dei regressori che lavora per noi, "sostituendo" l'errore sconosciuto- variabilità.
Ma va bene per la stima . Per la previsione , le stesse cose si rivolgono contro di noi: ora, non tenendo conto, per quanto imperfettamente, della variabilità in (poiché vogliamo prevederla), i nostri stimatori imperfetti ottenuti dal campione mostrano i loro punti deboli: abbiamo stimato che media campionaria, non conosciamo il vero valore atteso - la varianza aumenta. Abbiamo un che è lontano dalla media del campione calcolato dalle altre osservazioni -peccato, la nostra varianza dell'errore di previsione ottiene un altro impulso, perché il predetto tenderà ad andare fuori strada ... in più linguaggio scientifico "predittori ottimali nel senso di ridotta varianza dell'errore di previsione, rappresentano ay0x0 y^0restringimento verso la media della variabile sotto previsione ". Non cerchiamo di replicare la variabilità della variabile dipendente - cerchiamo solo di rimanere" vicini alla media ".