Se è al completo, esiste l'inverso di e otteniamo la stima dei minimi quadrati: eβ = ( X T X ) - 1 X Y Var ( β ) = σ 2 ( X T X ) - 1
Come possiamo spiegare intuitivamente nella formula della varianza? La tecnica di derivazione è chiara per me.
Se è al completo, esiste l'inverso di e otteniamo la stima dei minimi quadrati: eβ = ( X T X ) - 1 X Y Var ( β ) = σ 2 ( X T X ) - 1
Come possiamo spiegare intuitivamente nella formula della varianza? La tecnica di derivazione è chiara per me.
Risposte:
Considera una regressione semplice senza un termine costante e in cui il singolo regressore è centrato sulla sua media campionaria. Quindi è ( volte) la sua varianza campione e sua ricirpocal. Quindi maggiore è la varianza = variabilità nel regressore, minore è la varianza dello stimatore del coefficiente: più variabilità abbiamo nella variabile esplicativa, più accuratamente possiamo stimare il coefficiente sconosciuto.
Perché? Perché più un regressore è variabile, più informazioni contiene. Quando i regressori sono molti, questo si generalizza all'inverso della loro matrice varianza-covarianza, che tiene conto anche della co-variabilità dei regressori. Nel caso estremo in cui è diagonale, la precisione per ciascun coefficiente stimato dipende solo dalla varianza / variabilità del regressore associato (data la varianza del termine di errore).
Un modo semplice di visualizzare è come l'analogo della matrice (multivariata) di , che è la varianza del coefficiente di pendenza nella semplice regressione OLS. Si può anche ottenere per quella varianza omettendo l'intercetta nel modello, cioè eseguendo la regressione attraverso l'origine.σ 2 σ2
Da una di queste formule si può vedere che una maggiore variabilità della variabile predittore porterà in generale a una stima più precisa del suo coefficiente. Questa è l'idea spesso sfruttata nella progettazione di esperimenti, dove scegliendo i valori per i predittori (non casuali), si cerca di determinare il determinante di più grande possibile, il determinante è una misura della variabilità.
La trasformazione lineare della variabile casuale gaussiana aiuta? Usando la regola che if, , quindi .A x + b ∼ N ( A μ + b , A T Σ A )
Supponendo che sia il modello sottostante e .ϵ ∼ N ( 0 , σ 2 )
Quindi è solo una matrice di scala complicato che trasforma la distribuzione di . Y
Spero sia stato utile.
Adotterò un approccio diverso per sviluppare l' intuizione che sta alla base della formula . Quando si sviluppa l'intuizione per il modello di regressione multipla, è utile considerare il modello di regressione lineare bivariata, vale a dire. , è spesso chiamato il contributo deterministico a e è chiamato il contributo stocastico. Espresso in termini di deviazioni dai mezzi di esempio , questo modello può anche essere scritto comeyi=α+βxi+εi,α + β x i y i ε i ( ˉ x , ˉ y ) ( y i - ˉ y ) = β ( x i - ˉ x ) + ( ε i - ˉ ε ) ,
Per aiutare a sviluppare l'intuizione, assumeremo che i presupposti di Gauss-Markov più semplici siano soddisfatti: nonstochastic, per tutti , e per tutti . Come già sapete molto bene, queste condizioni garantiscono che dove è la varianza di esempio di . In parole, questa formula fa tre affermazioni: "La varianza di è inversamente proporzionale alla dimensione del campione , è direttamente proporzionale alla varianza di∑ n i = 1 ( x i - ˉ x ) 2 > 0 n ε i ∼ iid ( 0 , σ 2 ) i = 1 , … , n VarVar
Perché raddoppiare la dimensione del campione, ceteris paribus , dovrebbe dimezzare la varianza di ? Questo risultato è intimamente collegato al presupposto iid applicato a : poiché si presume che i singoli errori siano iid, ogni osservazione dovrebbe essere trattata ex ante in modo altrettanto informativo. E, raddoppiando il numero di osservazioni raddoppia la quantità di informazioni sui parametri che descrivono il (lineare) assunto rapporto tra ed εxyσ2 β. Avere il doppio delle informazioni dimezza l'incertezza sui parametri. Allo stesso modo, dovrebbe essere semplice sviluppare la propria intuizione sul perché il raddoppio di raddoppia anche la varianza di .
Passiamo, quindi, alla tua domanda principale, che riguarda lo sviluppo dell'intuizione per l'affermazione che la varianza di è inversamente proporzionale alla varianza di . Per formalizzare le nozioni, consideriamo da ora in poi due modelli di regressione lineare bivariata separati, chiamati Model e Model . Supporremo che entrambi i modelli soddisfino i presupposti della forma più semplice del teorema di Gauss-Markov e che i modelli condividano gli stessi identici valori di , , e . Sotto questi presupposti, è facile dimostrarlo x(1)(2)alfaβnσ2E ˉ x ( 1 ) = ˉ x ( 2 ) = ˉ x Var ; in parole, entrambi gli stimatori sono imparziali. Fondamentalmente, supponiamo anche che considerando , . Senza perdita di generalità, supponiamo che . Quale stimatore di avrà la varianza minore? In altre parole, o saranno più vicini, in media , a ? Dalla discussione precedente, abbiamo Varß ßβ βVark=1,2Varper . Poiché per ipotesi, ne consegue che . Qual è allora l'intuizione dietro questo risultato? Var
Perché ipotizzando , in media ogni sarà più lontano da rispetto al caso, in media, per . Indichiamo la differenza assoluta media attesa tra e di . Il presupposto che implica che . Il modello di regressione lineare bivariata, espresso in deviazioni dalle , afferma che per il modello e per il modello xˉ x x ( 2 ) i xi ˉ x dxVar d ( 1 ) x > d ( 2 ) x d y = β d ( 1 ) x ( 1 ) d y = β d ( 2 ) xβ ≠ 0 ( 1 ) β d ( 1 ) x d y ( 2 ) β d ( 2 ) . Se , ciò significa che la componente deterministica di Model , , ha un'influenza maggiore su rispetto alla componente deterministica di Model , . Ricordiamo che si presume che entrambi i modelli soddisfino i presupposti di Gauss-Markov, che le varianze di errore siano le stesse in entrambi i modelli e che . Poiché il modello fornisce più informazioni sul contributo della componente deterministica di rispetto al modello , ne consegue che la precisione β(1)=β(2)=β(1)y(2)(1)(2)βcon il quale è possibile stimare il contributo deterministico è maggiore per il Modello rispetto al Modello . Il contrario di una maggiore precisione è una varianza inferiore della stima puntuale di .
È ragionevolmente semplice generalizzare l'intuizione ottenuta dallo studio del modello di regressione semplice al modello di regressione lineare multipla generale. La principale complicazione è che invece di confrontare le varianze scalari, è necessario confrontare la "dimensione" delle matrici varianza-covarianza. Avere una buona conoscenza pratica di determinanti, tracce ed autovalori di matrici simmetriche reali è molto utile a questo punto :-)
Supponiamo di avere osservazioni (o dimensioni del campione) e parametri .p
La matrice di covarianza dei parametri stimati ecc. È una rappresentazione dell'accuratezza dei parametri stimati.p 1 , β 2
Se in un mondo ideale i dati potrebbero essere perfettamente descritti dal modello, allora il rumore sarà . Ora, le voci diagonali di corrispondono a ecc. La formula derivata per la varianza concorda con l'intuizione che se il rumore è più basso, le stime saranno più accurate.Var ( β ) Var ( ^ β 1 ) , Var ( ^ β 2 )
Inoltre, con l'aumentare del numero di misurazioni, la varianza dei parametri stimati diminuirà. Pertanto, nel complesso il valore assoluto delle voci di sarà maggiore, poiché il numero di colonne di è e il numero di righe di è , e ogni voce di è una somma di coppie di prodotti. Il valore assoluto delle voci dell'inverso sarà inferiore.
Quindi, anche se c'è molto rumore, possiamo comunque raggiungere buone stime dei parametri se aumentiamo la dimensione del campione . n
Spero che questo possa essere d'aiuto.
Riferimento: Sezione 7.3 sui minimi quadrati: Cosentino, Carlo e Declan Bates. Controllo feedback in biologia dei sistemi. Crc Press, 2011.
Questo si basa sulla risposta di @Alecos Papadopuolos.
Ricorda che il risultato di una regressione dei minimi quadrati non dipende dalle unità di misura delle tue variabili. Supponiamo che la tua variabile X sia una misura di lunghezza, espressa in pollici. Quindi riscalare X, diciamo moltiplicando per 2,54 per cambiare l'unità in centimetri, non influenza materialmente le cose. Se si rimonta il modello, la nuova stima di regressione sarà la vecchia stima divisa per 2,54.
La matrice è la varianza di X, e quindi riflette la scala di misurazione di X. Se cambi la scala, devi riflettere questo nella tua stima di , e questo viene fatto moltiplicando per l' inverso di .