Spiegazione intuitiva del termine nella varianza dello stimatore del minimo quadrato


18

Se è al completo, esiste l'inverso di e otteniamo la stima dei minimi quadrati: eXβ = ( X T X ) - 1 X Y Var ( β ) = σ 2 ( X T X ) - 1XTX

β^=(XTX)-1XY
Var(β^)=σ2(XTX)-1

Come possiamo spiegare intuitivamente nella formula della varianza? La tecnica di derivazione è chiara per me.(XTX)-1


3
Potresti voler aggiungere una nota per sottolineare che la formula che hai dichiarato per la matrice varianza-covarianza di - supponendo che sia stimata da OLS - è corretta solo se il le condizioni del teorema di Gauss-Markov sono soddisfatte e, in particolare, solo se la matrice varianza-covarianza dei termini di errore è data da , dove è la matrice di identità e è il numero di file di (e ). La formula che hai fornito non è corretta per il caso più generale di errori non sferici. ß σ2InInn×nnXYβ^β^σ2ionionn×nnXY
Mico,

Risposte:


13

Considera una regressione semplice senza un termine costante e in cui il singolo regressore è centrato sulla sua media campionaria. Quindi è ( volte) la sua varianza campione e sua ricirpocal. Quindi maggiore è la varianza = variabilità nel regressore, minore è la varianza dello stimatore del coefficiente: più variabilità abbiamo nella variabile esplicativa, più accuratamente possiamo stimare il coefficiente sconosciuto. X'Xn(X'X)-1

Perché? Perché più un regressore è variabile, più informazioni contiene. Quando i regressori sono molti, questo si generalizza all'inverso della loro matrice varianza-covarianza, che tiene conto anche della co-variabilità dei regressori. Nel caso estremo in cui è diagonale, la precisione per ciascun coefficiente stimato dipende solo dalla varianza / variabilità del regressore associato (data la varianza del termine di errore).X'X


Potresti mettere in relazione questo argomento con il fatto che l'inverso della matrice varianza-covarianza produce la correlazione parziale ?
Heisenberg,

5

Un modo semplice di visualizzare è come l'analogo della matrice (multivariata) di , che è la varianza del coefficiente di pendenza nella semplice regressione OLS. Si può anche ottenere per quella varianza omettendo l'intercetta nel modello, cioè eseguendo la regressione attraverso l'origine.σ 2σ2(XTX)-1 σ2σ2Σio=1n(Xio-X¯)2σ2Σio=1nXio2

Da una di queste formule si può vedere che una maggiore variabilità della variabile predittore porterà in generale a una stima più precisa del suo coefficiente. Questa è l'idea spesso sfruttata nella progettazione di esperimenti, dove scegliendo i valori per i predittori (non casuali), si cerca di determinare il determinante di più grande possibile, il determinante è una misura della variabilità.(XTX)


2

La trasformazione lineare della variabile casuale gaussiana aiuta? Usando la regola che if, , quindi .A x + b N ( A μ + b , A T Σ A )X~N(μ,Σ)UNX+B ~N(UNμ+B,UNTΣUN)

Supponendo che sia il modello sottostante e .ϵ N ( 0 , σ 2 )Y=Xβ+εε~N(0,σ2)

YN(Xβ,σ2)XTYN(XTXβ,Xσ2XT)(XTX)1XTYN[β,(XTX)1σ2]

Quindi è solo una matrice di scala complicato che trasforma la distribuzione di . Y(XTX)1XTY

Spero sia stato utile.


Nulla nella derivazione dello stimatore OLS e nella sua varianza richiede la normalità dei termini di errore. Tutto ciò che serve è ed . (Naturalmente, la normalità è tenuto a dimostrare che OLS raggiunge il Cramer-Rao il limite inferiore, ma non è questo che invio del PO è di circa, è vero?)E ( ε ε T ) = σ 2 I nE(ε)=0E(εεT)=σ2In
Mico

2

Adotterò un approccio diverso per sviluppare l' intuizione che sta alla base della formula . Quando si sviluppa l'intuizione per il modello di regressione multipla, è utile considerare il modello di regressione lineare bivariata, vale a dire. , è spesso chiamato il contributo deterministico a e è chiamato il contributo stocastico. Espresso in termini di deviazioni dai mezzi di esempio , questo modello può anche essere scritto comeyi=α+βxi+εi,Varβ^=σ2(XX)1α + β x i y i ε i ( ˉ x , ˉ y ) ( y i - ˉ y ) = β ( x i - ˉ x ) + ( ε i - ˉ ε ) ,

yi=α+βxi+εi,i=1,,n.
α+βxiyiεi(x¯,y¯)
(yiy¯)=β(xix¯)+(εiε¯),i=1,,n.

Per aiutare a sviluppare l'intuizione, assumeremo che i presupposti di Gauss-Markov più semplici siano soddisfatti: nonstochastic, per tutti , e per tutti . Come già sapete molto bene, queste condizioni garantiscono che dove è la varianza di esempio di . In parole, questa formula fa tre affermazioni: "La varianza di è inversamente proporzionale alla dimensione del campione , è direttamente proporzionale alla varianza din i = 1 ( x i - ˉ x ) 2 > 0 n ε iiid ( 0 , σ 2 ) i = 1 , , n Varxii=1n(xix¯)2>0nεiiid(0,σ2)i=1,,nVar

Varβ^=1nσ2(Varx)1,
x β n ε xVarxxβ^nε , ed è inversamente proporzionale alla varianza di . "x

Perché raddoppiare la dimensione del campione, ceteris paribus , dovrebbe dimezzare la varianza di ? Questo risultato è intimamente collegato al presupposto iid applicato a : poiché si presume che i singoli errori siano iid, ogni osservazione dovrebbe essere trattata ex ante in modo altrettanto informativo. E, raddoppiando il numero di osservazioni raddoppia la quantità di informazioni sui parametri che descrivono il (lineare) assunto rapporto tra ed εxyσ2 ββ^εxy. Avere il doppio delle informazioni dimezza l'incertezza sui parametri. Allo stesso modo, dovrebbe essere semplice sviluppare la propria intuizione sul perché il raddoppio di raddoppia anche la varianza di .σ2β^

Passiamo, quindi, alla tua domanda principale, che riguarda lo sviluppo dell'intuizione per l'affermazione che la varianza di è inversamente proporzionale alla varianza di . Per formalizzare le nozioni, consideriamo da ora in poi due modelli di regressione lineare bivariata separati, chiamati Model e Model . Supporremo che entrambi i modelli soddisfino i presupposti della forma più semplice del teorema di Gauss-Markov e che i modelli condividano gli stessi identici valori di , , e . Sotto questi presupposti, è facile dimostrarlo x(1)(2)alfaβnσ2Eβ^x(1)(2)αβnσ2 ˉ x ( 1 ) = ˉ x ( 2 ) = ˉ x VarEβ^(1)=Eβ^(2)=β ; in parole, entrambi gli stimatori sono imparziali. Fondamentalmente, supponiamo anche che considerando , . Senza perdita di generalità, supponiamo che . Quale stimatore di avrà la varianza minore? In altre parole, o saranno più vicini, in media , a ? Dalla discussione precedente, abbiamox¯(1)=x¯(2)=x¯ VarVarX(1)VarX(2)ß ßVarX(1)>VarX(2)β^ββ^(1) βVarβ^(2)βk=1,2VarVarβ^(K)=1nσ2/VarX(K))per . Poiché per ipotesi, ne consegue che . Qual è allora l'intuizione dietro questo risultato?K=1,2 VarVarX(1)>VarX(2)Varβ^(1)<Varβ^(2)

Perché ipotizzando , in media ogni sarà più lontano da rispetto al caso, in media, per . Indichiamo la differenza assoluta media attesa tra e di . Il presupposto che implica che . Il modello di regressione lineare bivariata, espresso in deviazioni dalle , afferma che per il modello e per il modello xVarX(1)>VarX(2)ˉ x x ( 2 ) i xi ˉ x dxVarXio(1)X¯Xio(2)XioX¯dX d ( 1 ) x > d ( 2 ) x d y = β d ( 1 ) x ( 1 ) d y = β d ( 2 ) xVarX(1)>VarX(2)dX(1)>dX(2)dy=βdX(1)(1)dy=βdX(2)β 0 ( 1 ) β d ( 1 ) x d y ( 2 ) β d ( 2 )(2) . Se , ciò significa che la componente deterministica di Model , , ha un'influenza maggiore su rispetto alla componente deterministica di Model , . Ricordiamo che si presume che entrambi i modelli soddisfino i presupposti di Gauss-Markov, che le varianze di errore siano le stesse in entrambi i modelli e che . Poiché il modello fornisce più informazioni sul contributo della componente deterministica di rispetto al modello , ne consegue che la precisioneβ0(1)βdX(1)dy(2) β(1)=β(2)=β(1)y(2)(1)(2)ββdX(2)β(1)=β(2)=β(1)y(2)con il quale è possibile stimare il contributo deterministico è maggiore per il Modello rispetto al Modello . Il contrario di una maggiore precisione è una varianza inferiore della stima puntuale di .(1)(2)β

È ragionevolmente semplice generalizzare l'intuizione ottenuta dallo studio del modello di regressione semplice al modello di regressione lineare multipla generale. La principale complicazione è che invece di confrontare le varianze scalari, è necessario confrontare la "dimensione" delle matrici varianza-covarianza. Avere una buona conoscenza pratica di determinanti, tracce ed autovalori di matrici simmetriche reali è molto utile a questo punto :-)


1

Supponiamo di avere osservazioni (o dimensioni del campione) e parametri .pnp

La matrice di covarianza dei parametri stimati ecc. È una rappresentazione dell'accuratezza dei parametri stimati.p 1 , β 2Var(β^)β^1,β^2

Se in un mondo ideale i dati potrebbero essere perfettamente descritti dal modello, allora il rumore sarà . Ora, le voci diagonali di corrispondono a ecc. La formula derivata per la varianza concorda con l'intuizione che se il rumore è più basso, le stime saranno più accurate.Var ( β ) Var ( ^ β 1 ) , Var ( ^ β 2 )σ2=0Var(β^)Var(β1^),Var(β2^)

Inoltre, con l'aumentare del numero di misurazioni, la varianza dei parametri stimati diminuirà. Pertanto, nel complesso il valore assoluto delle voci di sarà maggiore, poiché il numero di colonne di è e il numero di righe di è , e ogni voce di è una somma di coppie di prodotti. Il valore assoluto delle voci dell'inverso sarà inferiore.XTXXTnXnXTXn(XTX)-1

Quindi, anche se c'è molto rumore, possiamo comunque raggiungere buone stime dei parametri se aumentiamo la dimensione del campione . nβio^n

Spero che questo possa essere d'aiuto.

Riferimento: Sezione 7.3 sui minimi quadrati: Cosentino, Carlo e Declan Bates. Controllo feedback in biologia dei sistemi. Crc Press, 2011.


1

Questo si basa sulla risposta di @Alecos Papadopuolos.

Ricorda che il risultato di una regressione dei minimi quadrati non dipende dalle unità di misura delle tue variabili. Supponiamo che la tua variabile X sia una misura di lunghezza, espressa in pollici. Quindi riscalare X, diciamo moltiplicando per 2,54 per cambiare l'unità in centimetri, non influenza materialmente le cose. Se si rimonta il modello, la nuova stima di regressione sarà la vecchia stima divisa per 2,54.

La matrice è la varianza di X, e quindi riflette la scala di misurazione di X. Se cambi la scala, devi riflettere questo nella tua stima di , e questo viene fatto moltiplicando per l' inverso di .X'XβX'X

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.