Quali sono le conseguenze di una varianza non costante nei termini di errore nella regressione lineare?


9

Uno dei presupposti della regressione lineare è che dovrebbe esserci una variazione costante nei termini di errore e che gli intervalli di confidenza e i test di ipotesi associati al modello si basano su questa ipotesi. Cosa succede esattamente quando i termini di errore non hanno una varianza costante?

Risposte:


15

Le conseguenze dell'eteroscedasticità sono:

  1. L'minimi quadrati ordinari (OLS) stimatore b = ( X ' X ) X ' y è ancora consistente , ma non è più efficace .b^=(XX)Xy

  2. Var^(b)=(XX)1σ^2σ^2=1nkeeb^

Il punto (1) potrebbe non essere un grosso problema; le persone spesso usano comunque il normale stimatore OLS. Ma il punto (2) deve essere affrontato. Cosa fare?

b

Var^(b)=1n(XXn)1S(XXn)1
SS=1nki(xiei)(xiei)

Ciò fornisce errori standard coerenti con l'eteroschedasticità. Sono anche noti come errori standard Huber-White, errori standard robusti, stimatore "sandwich", ecc ... Qualsiasi pacchetto di statistiche standard di base ha un'opzione per errori standard robusti. Usalo!

Alcuni commenti aggiuntivi (aggiornamento)

Se l'eteroschedasticità è abbastanza grande, la stima OLS regolare può avere grossi problemi pratici. Pur essendo uno stimatore coerente, potresti avere piccoli problemi di esempio in cui l'intera stima è guidata da alcune osservazioni ad alta varianza. (Questo è ciò a cui allude @ seanv507 nei commenti). Lo stimatore OLS è inefficiente in quanto sta dando più peso alle osservazioni ad alta varianza che ottimali. La stima può essere estremamente rumorosa.

Un problema con il tentativo di correggere l'inefficienza è che probabilmente non conosci la matrice di covarianza per i termini di errore, quindi usare qualcosa come GLS può peggiorare le cose se la tua stima del termine di errore matrice di covarianza è spazzatura.

Inoltre, gli errori standard Huber-White che do sopra possono avere grossi problemi in piccoli campioni. C'è una lunga letteratura su questo argomento. Per esempio. vedi Imbens e Kolesar (2016), "Errori standard robusti in piccoli campioni: alcuni consigli pratici".

Direzione per ulteriori studi:

Se si tratta di studio autonomo, la prossima cosa pratica da considerare sono gli errori standard raggruppati. Questi corretti per la correlazione arbitraria all'interno dei cluster.


1
Matthew - Penso che problemi più pratici chiarirebbero il punto (1). ad esempio, lo stimatore non sarebbe "distorto" verso quelle regioni con una varianza più elevata? - quale sarebbe un problema più grande se quelle regioni fossero lontane dalla media causando una leva elevata.
seanv507,

3
σi2bσi2

1
b

@ seanv507 sentiti libero di aggiungere la tua risposta!
Matthew Gunn,

Al posto dell'uso di errori standard robusti all'eteroschedasticità (che Ed Leamer nel suo documento del 2010 "Tantalo sulla strada per l'asimpopia" chiama White-washing ), si potrebbe anche provare a correggere le stime puntuali (insieme alla stima della varianza) per l'eteroschedasticità di WLS. Potrebbe valere la pena menzionarlo nella tua risposta.
Richard Hardy,

3

Bene, la risposta breve è fondamentalmente il tuo modello è sbagliato, cioè

  • Affinché i minimi quadrati ordinari per essere il B est L inear U nbiased E stimator costante varianza dei termini di errore è assunto.
  • β

Quindi, in caso di problemi di eteroscedasticità con la stima della matrice varianza-covarianza, si verificano errori standard standard dei coefficienti, che a loro volta portano a statistiche t e valori p errati. In breve, se i termini dell'errore non hanno una varianza costante, i minimi quadrati ordinari non sono il modo più efficiente per la stima. Dai un'occhiata a questa domanda correlata.


0

L '"eteroscedasticità" rende difficile stimare la vera deviazione standard degli errori di previsione. Ciò può portare a intervalli di confidenza troppo ampi o troppo stretti (in particolare saranno troppo stretti per le previsioni fuori campione, se la varianza degli errori aumenta nel tempo).

Inoltre, il modello di regressione potrebbe concentrarsi troppo su un sottoinsieme di dati.

Buon riferimento: test delle ipotesi di regressione lineare

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.