Come derivare la matrice varianza-covarianza dei coefficienti nella regressione lineare

36

Sto leggendo un libro sulla regressione lineare e ho qualche problema a capire la matrice varianza-covarianza di : $\mathbf{b}$

inserisci qui la descrizione dell'immagine

Gli elementi diagonali sono abbastanza facili, ma quelli fuori diagonale sono un po 'più difficili, ciò che mi è che

σ (b_{0}, b_{1}) = E (b_{0} b_{1}) - E (b_{0}) E (b_{1}) = E (b_{0} b_{1}) - β_{0} β_{1}

$\sigma(b_0, b_1) = E(b_0 b_1) - E(b_0)E(b_1) = E(b_0 b_1) - \beta_0 \beta_1$

ma qui non c'è traccia di e . $\beta_0$ $\beta_1$

regression

— QED
fonte

3

Domanda correlata: stats.stackexchange.com/questions/44838/…

— ocram

2

Qual è il libro?

— Konstantinos,

Neter et al., Applied Linear Regression Models, 1983, pagina 216. Puoi trovare lo stesso materiale in Applied Linear Statistical Models, 5th Edition, pagina 207.

— akavalar

53

Questa è in realtà una bella domanda che mette alla prova la tua comprensione di base di una regressione.

Per prima cosa elimina ogni confusione iniziale sulla notazione. Stiamo osservando la regressione:

y = b_{0} + b_{1} x + \hat{u}

$y=b_0+b_1x+\hat{u}$

dove $b_0$ e $b_1$ sono gli stimatori del vero $\beta_0$ e $\beta_1$ , ed sono i residui della regressione. Si noti che la regressione reale e non osservata sottostante è quindi indicata come: $\hat{u}$

y = β_{0} + β_{1} x + u

$y=\beta_0+\beta_1x+u$

Con l'aspettativa di $E[u]=0$ e varianza $E[u^2]=\sigma^2$ . Alcuni libri denotano $b$ come e ci adattiamo questa convenzione qui. Usiamo anche la notazione matriciale, dove b è il vettore 2x1 che contiene gli stimatori di , ovvero $\hat{\beta}$ $\beta=[\beta_0, \beta_1]'$ $b=[b_0, b_1]'$ . (Anche per motivi di chiarezza, tratto X come risolto nei seguenti calcoli.)

Ora alla tua domanda. La tua formula per la covarianza è davvero corretta, cioè:

σ (b_{0}, b_{1}) = E (b_{0} b_{1}) - E (b_{0}) E (b_{1}) = E (b_{0} b_{1}) - β_{0} β_{1}

$\sigma(b_0, b_1) = E(b_0 b_1) - E(b_0)E(b_1) = E(b_0 b_1) - \beta_0 \beta_1$

Penso che tu voglia sapere come mai abbiamo i veri coefficienti non osservati $\beta_0, \beta_1$ in questa formula? In realtà vengono annullati se facciamo un ulteriore passo espandendo la formula. Per vedere questo, nota che la varianza della popolazione dello stimatore è data da:

V a r (\hat{β}) = σ^{2} (X^{'} X)^{- 1}

$Var(\hat\beta)=\sigma^2(X'X)^{-1}$

Questa matrice contiene le varianze negli elementi diagonali e le covarianze negli elementi non diagonali.

Per arrivare alla formula sopra, generalizziamo il tuo reclamo usando la notazione a matrice. Indichiamo quindi la varianza con $Var[\cdot]$ e l'attesa con $E[\cdot]$ .

V a r [b] = E [b^{2}] - E [b] E [b^{'}]

$Var[b]=E[b^2]-E[b]E[b']$

Essenzialmente abbiamo la formula della varianza generale, usando solo la notazione matriciale. L'equazione si risolve sostituendo l'espressione standard con lo stimatore $b=(X'X)^{-1}X'y$ . Supponiamo anche che $E[b]=\beta$ sia uno stimatore imparziale. Quindi, otteniamo:

E [((X^{'} X)^{- 1} X^{'} y)^{2}] - \underset{2 \times 2}{β^{2}}

$E[((X'X)^{-1}X'y)^2] - \underset{2 \times 2}{\beta^2}$

Nota che abbiamo sul lato destro $\beta^2$ - 2x2 matrice, vale a dire $bb'$ , ma a questo punto potresti già indovinare cosa accadrà a breve termine.

Sostituendo $y$ con la nostra espressione per il vero processo di generazione dei dati sottostanti sopra, abbiamo:

\begin{aligned} E [((X^{'} X)^{- 1} X^{'} y)^{2}] - β^{2} & = E [((X^{'} X)^{- 1} X^{'} (X β + u))^{2}] - β^{2} \\ = E [(\underset{= I}{\underset{⏟}{(X^{'} X)^{- 1} X^{'} X}} β + (X^{'} X)^{- 1} X^{'} u)^{2}] - β^{2} \\ = E [(β + (X^{'} X)^{- 1} X^{'} u)^{2}] - β^{2} \\ = β^{2} + E [(X^{'} X)^{- 1} X^{'} u)^{2}] - β^{2} \end{aligned}

$\begin{align*} E\Big[\Big((X'X)^{-1}X'y\Big)^2\Big] - \beta^2 &= E\Big[\Big((X'X)^{-1}X'(X\beta+u)\Big)^2\Big]-\beta^2 \\ &= E\Big[\Big(\underbrace{(X'X)^{-1}X'X}_{=I}\beta+(X'X)^{-1}X'u\Big)^2\Big]-\beta^2 \\ &= E\Big[\Big(\beta+(X'X)^{-1}X'u\Big)^2\Big]-\beta^2 \\ &= \beta^2+E\Big[\Big(X'X)^{-1}X'u\Big)^2\Big]-\beta^2 \end{align*}$

poiché $E[u]=0$ . Inoltre, il termine quadratico $\beta^2$ annulla come previsto.

Quindi abbiamo:

V a r [b] = ((X^{'} X)^{- 1} X^{'})^{2} E [u^{2}]

$Var[b]=((X'X)^{-1}X')^2E[u^2]$

Per linearità delle aspettative. Si noti che per ipotesi $E[u^2]=\sigma^2$ e $((X'X)^{-1}X')^2=(X'X)^{-1}X'X(X'X)'^{-1}=(X'X)^{-1}$ poiché $X'X$ è un $K\times K$ Matrice simmetrica e quindi uguale alla sua trasposizione. Finalmente arriviamo a

V a r [b] = σ^{2} (X^{'} X)^{- 1}

$Var[b]=\sigma^2(X'X)^{-1}$

Ora che ci siamo sbarazzati di tutti i termini $\beta$ . Intuitivamente, la varianza dello stimatore è indipendente dal valore del vero coefficiente sottostante, poiché questa non è una variabile casuale di per sé. Il risultato è valido per tutti i singoli elementi nella matrice di covarianza della varianza, come mostrato nel libro, quindi valido anche per gli elementi off diagonali e con $\beta_0\beta_1$ da cancellare rispettivamente. L'unico problema era che avevi applicato la formula generale per la varianza che all'inizio non riflette questa cancellazione.

In definitiva, la varianza dei coefficienti si riduce a $\sigma^2(X'X)^{-1}$ e indipendente da $\beta$ . Ma cosa significa? (Credo che tu abbia chiesto anche una comprensione più generale della matrice generale della covarianza)

Guarda la formula nel libro. Asserisce semplicemente che la varianza dello stimatore aumenta per quando il vero termine di errore sottostante è più rumoroso ( $\sigma^2$ aumenta), ma diminuisce per quando aumenta la diffusione di X. Poiché avere più osservazioni distribuite attorno al valore reale, consente in generale di costruire uno stimatore più accurato e quindi più vicino al vero $\beta$ . D'altra parte, i termini di covarianza sulla off-diagonale diventano praticamente rilevanti nel test di ipotesi di ipotesi articolari come $b_0=b_1=0$ . A parte questo, sono un po 'confusi, davvero. Spero che questo chiarisca tutte le domande.

— Majte
fonte

e quando mantenere costante la diffusione e diminuire le x, l'errore standard dell'intercetta diventa più piccolo, il che ha senso.

— Theta30,

((X^{'} X)^{- 1} X^{'})^{2} = ((X^{'} X)^{- 1} X^{'}) ((X^{'} X)^{- 1} X^{'}) = X^{- 2}

$((X'X)^{-1}X')^2 = ((X'X)^{-1}X')((X'X)^{-1}X') = X^{-2}$

2

Nel tuo caso abbiamo

X^{'} X = [\begin{matrix} n & \sum X_{i} \\ \sum X_{i} & \sum X_{i}^{2} \end{matrix}]

$X'X=\begin{bmatrix}n & \sum X_i\\\sum X_i & \sum X_i^2\end{bmatrix}$

Invertire questa matrice e otterrai il risultato desiderato.

— mpiktas
fonte

1

$\beta_0 \beta_1$ $E(b_0)=\beta_0$ e $E(b_1)=\beta_1$ .

— Drew75
fonte

β_{0}

$\beta_0$ e

β_{1}

$\beta_1$ sono generalmente sconosciuti, a cosa possono passare?

— qed

Penso di aver capito la confusione e penso che forse avrebbero dovuto scrivere

β_{0}^{*}

$\beta_0^*$ piuttosto che

β_{0}

$\beta_0$ . Ecco un altro post che passa attraverso il calcolo: link

— Drew75

2

@qed: per campionare le stime delle quantità sconosciute.

— Glen_b