Come derivare la matrice varianza-covarianza dei coefficienti nella regressione lineare


36

Sto leggendo un libro sulla regressione lineare e ho qualche problema a capire la matrice varianza-covarianza di :b

inserisci qui la descrizione dell'immagine

Gli elementi diagonali sono abbastanza facili, ma quelli fuori diagonale sono un po 'più difficili, ciò che mi è che

σ(b0,b1)=E(b0b1)E(b0)E(b1)=E(b0b1)β0β1

ma qui non c'è traccia di e .β0β1



2
Qual è il libro?
Konstantinos,

Neter et al., Applied Linear Regression Models, 1983, pagina 216. Puoi trovare lo stesso materiale in Applied Linear Statistical Models, 5th Edition, pagina 207.
akavalar

Risposte:


53

Questa è in realtà una bella domanda che mette alla prova la tua comprensione di base di una regressione.

Per prima cosa elimina ogni confusione iniziale sulla notazione. Stiamo osservando la regressione:

y=b0+b1x+u^

dove b0 e b1 sono gli stimatori del vero β0 e β1 , ed u sono i residui della regressione. Si noti che la regressione reale e non osservata sottostante è quindi indicata come:u^

y=β0+β1x+u

Con l'aspettativa di E[u]=0 e varianza E[u2]=σ2 . Alcuni libri denotano b come β e ci adattiamo questa convenzione qui. Usiamo anche la notazione matriciale, dove b è il vettore 2x1 che contiene gli stimatori di β = [ β 0 , β 1 ] , ovvero b = [ b 0 , b 1 ] β^β=[β0,β1]b=[b0,b1]. (Anche per motivi di chiarezza, tratto X come risolto nei seguenti calcoli.)

Ora alla tua domanda. La tua formula per la covarianza è davvero corretta, cioè:

σ(b0,b1)=E(b0b1)E(b0)E(b1)=E(b0b1)β0β1

Penso che tu voglia sapere come mai abbiamo i veri coefficienti non osservati β0,β1 in questa formula? In realtà vengono annullati se facciamo un ulteriore passo espandendo la formula. Per vedere questo, nota che la varianza della popolazione dello stimatore è data da:

Var(β^)=σ2(XX)1

Questa matrice contiene le varianze negli elementi diagonali e le covarianze negli elementi non diagonali.

Per arrivare alla formula sopra, generalizziamo il tuo reclamo usando la notazione a matrice. Indichiamo quindi la varianza con Var[] e l'attesa con E[] .

Var[b]=E[b2]E[b]E[b]

Essenzialmente abbiamo la formula della varianza generale, usando solo la notazione matriciale. L'equazione si risolve sostituendo l'espressione standard con lo stimatore b=(XX)1Xy . Supponiamo anche che E[b]=β sia uno stimatore imparziale. Quindi, otteniamo:

E[((XX)1Xy)2]β22×2

Nota che abbiamo sul lato destro β2 - 2x2 matrice, vale a dire bb , ma a questo punto potresti già indovinare cosa accadrà a breve termine.

Sostituendo y con la nostra espressione per il vero processo di generazione dei dati sottostanti sopra, abbiamo:

E[((XX)1Xy)2]β2=E[((XX)1X(Xβ+u))2]β2=E[((XX)1XX=Iβ+(XX)1Xu)2]β2=E[(β+(XX)1Xu)2]β2=β2+E[(XX)1Xu)2]β2

poiché E[u]=0 . Inoltre, il termine quadratico β2 annulla come previsto.

Quindi abbiamo:

Var[b]=((XX)1X)2E[u2]

Per linearità delle aspettative. Si noti che per ipotesi E[u2]=σ2 e ((XX)1X)2=(XX)1XX(XX)1=(XX)1 poichéXX è unK×KMatrice simmetrica K e quindi uguale alla sua trasposizione. Finalmente arriviamo a

Var[b]=σ2(XX)1

Ora che ci siamo sbarazzati di tutti i termini β . Intuitivamente, la varianza dello stimatore è indipendente dal valore del vero coefficiente sottostante, poiché questa non è una variabile casuale di per sé. Il risultato è valido per tutti i singoli elementi nella matrice di covarianza della varianza, come mostrato nel libro, quindi valido anche per gli elementi off diagonali e con β0β1 da cancellare rispettivamente. L'unico problema era che avevi applicato la formula generale per la varianza che all'inizio non riflette questa cancellazione.

In definitiva, la varianza dei coefficienti si riduce a σ2(XX)1 e indipendente da β . Ma cosa significa? (Credo che tu abbia chiesto anche una comprensione più generale della matrice generale della covarianza)

Guarda la formula nel libro. Asserisce semplicemente che la varianza dello stimatore aumenta per quando il vero termine di errore sottostante è più rumoroso ( σ2 aumenta), ma diminuisce per quando aumenta la diffusione di X. Poiché avere più osservazioni distribuite attorno al valore reale, consente in generale di costruire uno stimatore più accurato e quindi più vicino al vero β . D'altra parte, i termini di covarianza sulla off-diagonale diventano praticamente rilevanti nel test di ipotesi di ipotesi articolari come b0=b1=0 . A parte questo, sono un po 'confusi, davvero. Spero che questo chiarisca tutte le domande.


e quando mantenere costante la diffusione e diminuire le x, l'errore standard dell'intercetta diventa più piccolo, il che ha senso.
Theta30,

((XX)1X)2=((XX)1X)((XX)1X)=X2

2

Nel tuo caso abbiamo

XX=[nXiXiXi2]

Invertire questa matrice e otterrai il risultato desiderato.


1

β0β1E(B0)=β0 e E(B1)=β1.


β0 e β1sono generalmente sconosciuti, a cosa possono passare?
qed

Penso di aver capito la confusione e penso che forse avrebbero dovuto scrivere β0* piuttosto che β0. Ecco un altro post che passa attraverso il calcolo: link
Drew75

2
@qed: per campionare le stime delle quantità sconosciute.
Glen_b
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.