Perché utilizziamo i residui per testare le ipotesi sugli errori di regressione?


10

Supponiamo di avere un modello Yi=β0+β1Xi1+β2Xi2++βkXik+ϵi .

La regressione ha una serie di ipotesi, come ad esempio che gli errori dovrebbero essere normalmente distribuiti con zero medio e varianza costante. Mi è stato insegnato a verificare queste ipotesi usando un normale diagramma QQ per verificare la normalità dei residui e un residuo rispetto al diagramma adattato per verificare che i residui varino attorno allo zero con varianza costante.ϵiei=YiY^i

Tuttavia, questi test riguardano tutti i residui, non gli errori.

Da quello che ho capito, gli errori sono definiti come la deviazione di ogni osservazione dal loro valore medio "vero". Quindi, possiamo scrivere . Questi errori non possono essere osservati da noi. *ϵi=YiE[Yi]

La mia domanda è questa: quanto sono bravi i lavori nel mimare gli errori?

Se le ipotesi sembrano essere soddisfatte sui residui, significa che sono soddisfatte anche sugli errori? Esistono altri modi (migliori) per testare i presupposti, come ad esempio adattamento del modello a un set di dati di test e recupero dei residui da lì?


* Inoltre, ciò non richiede che il modello sia specificato correttamente ? Cioè, la risposta ha davvero una relazione con i predittori ecc. Nel modo specificato dal modello.X1,X2,

Se ci mancano alcuni predittori (diciamo, ), allora l'aspettativa non sarebbe nemmeno la vera media e ulteriori analisi su un modello errato sembrano inutili.Xk+1 to XpE[Yio]=β0+β1Xio1+β2Xio2++βKXioK

Come controlliamo se il modello è corretto?

Risposte:


9

I residui sono le nostre stime dei termini di errore

La risposta breve a questa domanda è relativamente semplice: le ipotesi in un modello di regressione sono ipotesi sul comportamento dei termini di errore, mentre i residui sono le nostre stime dei termini di errore. Ipso facto , l'esame del comportamento dei residui osservati ci dice se le ipotesi sui termini dell'errore sono plausibili.

Per comprendere questa linea generale di ragionamento in modo più dettagliato, è utile esaminare in dettaglio il comportamento dei residui in un modello di regressione standard. In una regressione lineare multipla standard con termini di errore normali omoschedastici indipendenti, è nota la distribuzione del vettore residuo, che consente di testare le ipotesi distributive sottostanti nel modello di regressione. L'idea di base è di capire la distribuzione del vettore residuo in base alle ipotesi di regressione e quindi verificare se i valori residui corrispondono plausibilmente a questa distribuzione teorica. Le deviazioni dalla distribuzione residua teorica mostrano che la distribuzione presunta sottostante dei termini di errore è in qualche modo errata.

Se si utilizza la distribuzione dell'errore sottostanteεio~IID N(0,σ2) per un modello di regressione standard e si utilizza la stima OLS per i coefficienti, si può dimostrare che la distribuzione dei residui la distribuzione normale multivariata:

r=(io-h)ε~N(0,σ2(io-h)),

dove è la matrice del cappello per la regressione. Il vettore residuo imita il vettore dell'errore, ma la matrice di varianza ha il termine moltiplicativo aggiuntivo . Per testare le ipotesi di regressione usiamo i residui studentizzati, che hanno una distribuzione T marginale:h=X(XTX)-1XT I - hio-h

Siorioσ^Ext(1-lio)~T(dfres-1).

(Questa formula è per i residui studiati esternamente, in cui lo stimatore di varianza esclude la variabile in esame. I valori sono i valori di leva, che sono i valori diagonali nella matrice del cappello . I residui studiati non sono indipendenti, ma se è grande, sono vicini a indipendenti. Ciò significa che la distribuzione marginale è una distribuzione nota semplice ma la distribuzione congiunta è complicata.) Ora, se il limite esiste, quindi si può dimostrare che gli stimatori di coefficienti sono stimatori coerenti dei coefficienti di regressione reali e che i residui sono stimatori coerenti del termini di errore vero.lio=hio,io n lim n ( x T x ) / n = Δnlimn(XTX)/n=Δ

In sostanza, ciò significa che si verificano i presupposti distributivi sottostanti per i termini di errore confrontando i residui studentizzati con la distribuzione a T. Ognuna delle proprietà sottostanti della distribuzione dell'errore (linearità, omoschedasticità, errori non correlati, normalità) può essere testata usando le proprietà analoghe della distribuzione dei residui studentizzati. Se il modello è specificato correttamente, quindi per granden i residui dovrebbero essere vicini ai termini di errore reali e avere una forma distributiva simile.

L'omissione di una variabile esplicativa dal modello di regressione porta a una distorsione da variabile omessa negli stimatori dei coefficienti e ciò influisce sulla distribuzione residua. Sia la media che la varianza del vettore residuo sono influenzate dalla variabile omessa. Se i termini omessi nella regressione sono il vettore residuo diventa . Se i vettori di dati nella matrice omessa sono vettori IID normali e indipendenti dai termini di errore, alloraZδr=(io-h)(Zδ+ε)ZZδ+ε~N(μ1,σ*2io) in modo che la distribuzione residua diventi:

r=(io-h)(Zδ+ε)~N(μ(io-h)1,σ*2(io-h)).

Se nel modello esiste già un termine di intercettazione (ovvero se il vettore unità è nella matrice di progettazione), quindi1(io-h)1=0, il che significa che viene preservata la forma distributiva standard dei residui. Se non esiste un termine di intercettazione nel modello, la variabile omessa può fornire una media diversa da zero per i residui. In alternativa, se la variabile omessa non è IID normale, può portare ad altre deviazioni dalla distribuzione residua standard. In quest'ultimo caso, è improbabile che i test residui rilevino qualcosa risultante dalla presenza di una variabile omessa; di solito non è possibile determinare se le deviazioni dalla distribuzione residua teorica si verificano a causa di una variabile omessa, o semplicemente a causa di una relazione errata con le variabili incluse (e probabilmente queste sono comunque la stessa cosa).


1
Grazie per la risposta esaustiva. Posso chiederti dove hai preso ? Mi sembra che r =r=(io-h)εr=Y-Y^=(io-h)Y
mai

1
Poiché hai modo che . ( I - h ) x = 0 r = ( I - h ) Y = ( I - h ) ( x β + ϵ ) = ( I - h ) ϵhX=X(io-h)X=0r=(io-h)Y=(io-h)(Xβ+ε)=(io-h)ε
Ben - Ripristina Monica il

-4

Di solito, i termini residui ed errori significano la stessa cosa. Se il tuo modello non ha predittori, E (Y) è davvero la media di Y. Con i predittori (come nel tuo modello), E (Y) è il valore di Y previsto da ogni X. Quindi i residui sono la differenza tra ciascuno osservato e previsto Y.


3
"Di solito, i termini residui ed errori significano la stessa cosa." Non credo sia vero - per quanto ho capito, i residui misurano la differenza tra il valore osservato e il valore previsto, mentre gli errori misurano la differenza tra il valore osservato e il valore medio vero.
mai

1
Errori e residui in senso stretto non sono sinonimi. I primi sono variabili casuali, i secondi sono realizzazioni.
Richard Hardy,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.