Quali sono i pericoli derivanti dalla violazione dell'ipotesi di omoscedasticità per la regressione lineare?

28

Ad esempio, considera il ChickWeightset di dati in R. La varianza ovviamente aumenta nel tempo, quindi se uso una semplice regressione lineare come:

m <- lm(weight ~ Time*Diet, data=ChickWeight)

Le mie domande:

Quali aspetti del modello saranno discutibili?
I problemi si limitano all'estrapolazione al di fuori Timedell'intervallo?
Quanto è tollerante la regressione lineare alla violazione di questo presupposto (ovvero, quanto deve essere eteroscedastica per causare problemi)?

r regression heteroscedasticity assumptions

— Dan M.
fonte

1

Oltre alle cose menzionate nelle risposte, anche i tuoi intervalli di previsione non avranno la giusta copertura.

— Glen_b -Restate Monica

22

Il modello lineare (o "minimi quadrati ordinari") ha ancora la sua proprietà di imparzialità in questo caso.

Di fronte all'eteroschedasticità in termini di errore, hai ancora stime dei parametri imparziali ma perdi sulla matrice di covarianza: la tua inferenza (cioè i test dei parametri) potrebbe essere spenta. La correzione comune consiste nell'utilizzare un metodo affidabile per calcolare la matrice di covarianza, ovvero errori standard. Quello che usi dipende in qualche modo dal dominio, ma il metodo di White è un inizio.

E per completezza, la correlazione seriale dei termini di errore è peggiore in quanto porterà a stime dei parametri distorte.

— Dirk Eddelbuettel
fonte

Una stima affidabile degli errori standard (come il metodo di White) aiuta con i test / intervalli di confidenza sui parametri, ma non aiuta con gli intervalli di previsione?

— kjetil b halvorsen,

La covarianza del vettore dei parametri viene utilizzata nel calcolo delle previsioni, pertanto anche gli intervalli di previsione saranno distorti in generale.

— Mustafa S Eisa,

Corretta. Prese di parte, l'inferenza potrebbe essere disattivata. Gli altri due parametri sono corretti però.

— Dirk Eddelbuettel,

1

Grazie per averlo colto ed essere esplicito (piuttosto che silenziosamente, o "drive-by", downvote). Ero semplicemente un po 'sciatto nel mio uso della terminologia. Meglio ora.

— Dirk Eddelbuettel,

23

L'omoscedasticità è una delle ipotesi di Gauss Markov necessarie affinché OLS sia il miglior stimatore lineare imparziale (BLU).

$\beta$

Riassumendo brevemente le informazioni dai siti Web sopra, l'eteroscedasticità non introduce una distorsione nelle stime dei tuoi coefficienti. Tuttavia, data l'eteroscedasticità, non è possibile stimare correttamente la matrice varianza-covarianza. Pertanto, gli errori standard dei coefficienti sono errati. Ciò significa che non è possibile calcolare alcuna statistica t e valore p e di conseguenza non è possibile verificare le ipotesi. Nel complesso, sotto l'eteroscedasticità, OLS perde la sua efficienza e non è più BLU.

Tuttavia, l'eteroscedasticità non è la fine del mondo. Fortunatamente, correggere l'eteroscedasticità non è difficile. Lo stimatore sandwich consente di stimare errori standard coerenti per i coefficienti. Tuttavia, calcolare gli errori standard tramite lo stimatore sandwich ha un costo. Lo stimatore non è molto efficiente e gli errori standard potrebbero essere molto grandi. Un modo per recuperare parte dell'efficienza è raggruppare gli errori standard, se possibile.

Puoi trovare informazioni più dettagliate su questo argomento sui siti web che ho citato sopra.

— Simon O'Rourke
fonte

12

L'assenza di omoscedasticità può fornire stime di errore standard inaffidabili dei parametri. Le stime dei parametri sono imparziali. Ma le stime potrebbero non essere efficienti (non BLU). Puoi trovarne altri nel seguente link

— Vinux
fonte

12

$\log(Y)$ $Y$ $\beta$ s in modo errato e genera una somma non competitiva di errori assoluti. A volte la mancanza di costanza della varianza segnala un problema di modellazione più fondamentale.

$Y$ $\log(Y)$

— Frank Harrell
fonte

1

Ci sono buone informazioni qui nelle altre risposte, in particolare alla tua prima domanda. Ho pensato di aggiungere alcune informazioni gratuite relative alle tue ultime due domande.

I problemi associati all'eteroscedasticità non si limitano all'estrapolazione. Dato che implicano principalmente che gli intervalli di confidenza, i valori p e i limiti di previsione siano errati, si applicano a tutti i dati.
$\le 4\times$

— gung - Ripristina Monica
fonte