I residui sono le nostre stime dei termini di errore
La risposta breve a questa domanda è relativamente semplice: le ipotesi in un modello di regressione sono ipotesi sul comportamento dei termini di errore, mentre i residui sono le nostre stime dei termini di errore. Ipso facto , l'esame del comportamento dei residui osservati ci dice se le ipotesi sui termini dell'errore sono plausibili.
Per comprendere questa linea generale di ragionamento in modo più dettagliato, è utile esaminare in dettaglio il comportamento dei residui in un modello di regressione standard. In una regressione lineare multipla standard con termini di errore normali omoschedastici indipendenti, è nota la distribuzione del vettore residuo, che consente di testare le ipotesi distributive sottostanti nel modello di regressione. L'idea di base è di capire la distribuzione del vettore residuo in base alle ipotesi di regressione e quindi verificare se i valori residui corrispondono plausibilmente a questa distribuzione teorica. Le deviazioni dalla distribuzione residua teorica mostrano che la distribuzione presunta sottostante dei termini di errore è in qualche modo errata.
Se si utilizza la distribuzione dell'errore sottostanteεio~ IID N ( 0 , σ2) per un modello di regressione standard e si utilizza la stima OLS per i coefficienti, si può dimostrare che la distribuzione dei residui la distribuzione normale multivariata:
r = ( I- h ) ϵ ∼ N ( 0 , σ2( Io- h ) ) ,
dove è la matrice del cappello per la regressione. Il vettore residuo imita il vettore dell'errore, ma la matrice di varianza ha il termine moltiplicativo aggiuntivo . Per testare le ipotesi di regressione usiamo i residui studentizzati, che hanno una distribuzione T marginale:h = x ( xTx )- 1XT I - hio- h
Sio≡ rioσ^Ext⋅ ( 1 - lio)∼ T ( dfres- 1 ) .
(Questa formula è per i residui studiati esternamente, in cui lo stimatore di varianza esclude la variabile in esame. I valori sono i valori di leva, che sono i valori diagonali nella matrice del cappello . I residui studiati non sono indipendenti, ma se è grande, sono vicini a indipendenti. Ciò significa che la distribuzione marginale è una distribuzione nota semplice ma la distribuzione congiunta è complicata.) Ora, se il limite esiste, quindi si può dimostrare che gli stimatori di coefficienti sono stimatori coerenti dei coefficienti di regressione reali e che i residui sono stimatori coerenti del termini di errore vero.lio= hio , io n lim n → ∞ ( x T x ) / n = Δnlimn → ∞( xTx ) / n = Δ
In sostanza, ciò significa che si verificano i presupposti distributivi sottostanti per i termini di errore confrontando i residui studentizzati con la distribuzione a T. Ognuna delle proprietà sottostanti della distribuzione dell'errore (linearità, omoschedasticità, errori non correlati, normalità) può essere testata usando le proprietà analoghe della distribuzione dei residui studentizzati. Se il modello è specificato correttamente, quindi per granden i residui dovrebbero essere vicini ai termini di errore reali e avere una forma distributiva simile.
L'omissione di una variabile esplicativa dal modello di regressione porta a una distorsione da variabile omessa negli stimatori dei coefficienti e ciò influisce sulla distribuzione residua. Sia la media che la varianza del vettore residuo sono influenzate dalla variabile omessa. Se i termini omessi nella regressione sono il vettore residuo diventa . Se i vettori di dati nella matrice omessa sono vettori IID normali e indipendenti dai termini di errore, alloraZδr = ( I- h ) ( Zδ + ϵ )ZZδ + ϵ ∼ N ( μ 1 , σ2*io) in modo che la distribuzione residua diventi:
r = ( I- h ) ( Zδ + ϵ ) ∼ N ( μ ( I- h ) 1 , σ2*( Io- h ) ) .
Se nel modello esiste già un termine di intercettazione (ovvero se il vettore unità è nella matrice di progettazione), quindi1( Io- h ) 1 = 0, il che significa che viene preservata la forma distributiva standard dei residui. Se non esiste un termine di intercettazione nel modello, la variabile omessa può fornire una media diversa da zero per i residui. In alternativa, se la variabile omessa non è IID normale, può portare ad altre deviazioni dalla distribuzione residua standard. In quest'ultimo caso, è improbabile che i test residui rilevino qualcosa risultante dalla presenza di una variabile omessa; di solito non è possibile determinare se le deviazioni dalla distribuzione residua teorica si verificano a causa di una variabile omessa, o semplicemente a causa di una relazione errata con le variabili incluse (e probabilmente queste sono comunque la stessa cosa).