Perché la correlazione dei residui non ha importanza quando si verifica la normalità?


9

Quando (ovvero, deriva dal modello di regressione lineare), e in quel caso residui sono correlati e non indipendenti. Ma quando facciamo la diagnostica della regressione e vogliamo testare l'assunto , ogni libro di testo suggerisce di usare grafici Q – Q e test statistici sui residui che sono stati progettati per verificare se per alcuni .Y=AX+εY

εN(0,σ2I)e^=(IH)YN(0,(IH)σ2)
e^1,,e^nεN(0,σ2I)e^e^N(0,σ2I)σ2R

Come mai non importa per questi test che i residui siano correlati e non indipendenti? Si suggerisce spesso di usare residui standardizzati:

e^i=e^i1hii,
ma ciò li rende solo omosessuali, non indipendenti.

Per riformulare la domanda: i residui della regressione OLS sono correlati. Capisco che in pratica queste correlazioni sono così piccole (il più delle volte? Sempre?), Che possono essere ignorate quando si verifica se i residui provengono dalla distribuzione normale. La mia domanda è: perché?


1
Li rende omoscedastici.
Scortchi - Ripristina Monica

1
Stai chiedendo l'applicabilità di questi test quando i residui hanno forti correlazioni o sei solo preoccupato per la correlazione negativa (molto leggera e insignificante) derivante dalla procedura di stima dei minimi quadrati?
whuber

1
@whuber Sto chiedendo della correlazione derivante dalla procedura di stima dei minimi quadrati. Se sono lievi e insignificanti, vorrei sapere perché.
Zoran Loncarevic,

Risposte:


3

Nella tua notazione, è la proiezione e lo spazio della colonna di , ovvero il sottospazio spanning di tutti i regressori. Pertanto è la proiezione su tutto ciò che è ortogonale al sottospazio attraversato da tutti i regressori.HXM:=InH

Se , allora è singolarmente distribuito normalmente e gli elementi sono correlati, come affermi.XRn×ke^Rn

Gli errori sono osservabili e sono in generale non ortogonale al sottospazio attraversato da . Per ragioni di argomento, supponiamo che l'errore . Se ciò fosse vero, avremmo con . Poiché , potremmo scomporre e ottenere il vero .εXεspan(X)y=Xβ+ε=y~+εy~εy~=Xβspan(X)yε

Supponiamo di avere una base di , dove il primo vettore di base abbraccia il sottospazio e il restante span . In generale, l'errore avrà componenti diversi da zero per . Questi componenti diversi da zero verranno confusi con e pertanto non possono essere recuperati dalla proiezione su .b1,,bnRnb1,,bkspan(X)bk+1,,bnspan(X)ε=α1b1++αnbnαii{1,,k}Xβspan(X)

Dal momento che non possiamo mai sperare di recuperare i veri errori e sono correlati singolari -dimensionali normali, potremmo trasformare . Lì possiamo avere che ie è non singolare non correlato e distribuito normalmente omoscedastico. I residui sono chiamati residui BLUS di Theil .εe^ne^RneRnk

eNnk(0,σ2Ink),
ee

Nel breve articolo Sul test dei disturbi della regressione per la normalità trovate un confronto tra i residui di OLS e BLUS. Nell'impostazione collaudata Monte Carlo i residui OLS sono superiori ai residui BLUS. Ma questo dovrebbe darti un punto di partenza.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.