Eteroschedasticità e normalità dei residui


12

Ho una regressione lineare che è abbastanza buona, immagino (è per un progetto universitario, quindi non devo essere molto preciso).

Il punto è che se tracciamo i residui rispetto ai valori previsti, c'è (secondo il mio insegnante) un accenno di eteroschedasticità.

Ma se tracciamo il diagramma QQ dei residui, è chiaro che sono normalmente distribuiti. Inoltre, il test di Shapiro sui residui ha un valore di 0,8 , quindi penso che non ci siano dubbi sul fatto che i residui siano normalmente distribuiti.p0.8

Domanda: Come può esserci eteroschedasticità sui valori previsti se i residui sono normalmente distribuiti?


1
Un'aggiunta molto breve alla risposta eccellente di @whubers: è possibile utilizzare la ncvTestfunzione del pacchetto auto per Rcondurre un test formale per l'eteroscedasticità. Nell'esempio di whuber, il comando ncvTest(fit)produce un valore che è quasi zero e fornisce prove evidenti contro la costante variazione dell'errore (che era prevedibile, ovviamente). p
COOLSerdash,

Risposte:


16

Un modo per affrontare questa domanda è di guardarla al contrario: come possiamo iniziare con i residui normalmente distribuiti e sistemarli come eteroscedastici? Da questo punto di vista la risposta diventa ovvia: associa i residui più piccoli ai valori previsti più piccoli.

Per illustrare, ecco una costruzione esplicita.

figura

I dati a sinistra sono chiaramente eteroscedastici rispetto all'adattamento lineare (mostrato in rosso). Questo è portato a casa dal residuo rispetto alla trama prevista sulla destra. Ma - per costruzione - l' insieme non ordinato di residui è vicino alla distribuzione normale, come mostra il loro istogramma nel mezzo. (Il valore p nel test di normalità di Shapiro-Wilk è 0,60, ottenuto con il Rcomando shapiro.test(residuals(fit))emesso dopo aver eseguito il codice seguente.)

Anche i dati reali possono apparire così. La morale è che l' eteroscedasticità caratterizza una relazione tra dimensione residua e previsioni mentre la normalità non ci dice nulla su come i residui si relazionano con qualsiasi altra cosa.


Ecco il Rcodice per questa costruzione.

set.seed(17)
n <- 256
x <- (1:n)/n                       # The set of x values
e <- rnorm(n, sd=1)                # A set of *normally distributed* values
i <- order(runif(n, max=dnorm(e))) # Put the larger ones towards the end on average
y <- 1 + 5 * x + e[rev(i)]         # Generate some y values plus "error" `e`.
fit <- lm(y ~ x)                   # Regress `y` against `x`.
par(mfrow=c(1,3))                  # Set up the plots ...
plot(x,y, main="Data", cex=0.8)
abline(coef(fit), col="Red")
hist(residuals(fit), main="Residuals")
plot(predict(fit), residuals(fit), cex=0.8, main="Residuals vs. Predicted")

2
ok quindi stai dicendo che se associo residui bassi con valori predetti elevati, l'eteroscedasticità può sorgere anche se i residui sono normalmente distribuiti? Penso di averlo, anche se dovrei davvero pensarci di più .. comunque grazie!
Formica,

... o residui bassi con valori previsti bassi (come nell'esempio qui), o anche in modi più complessi. Ad esempio, l'eteroscedasticità esiste quando l'ampiezza media dei residui oscilla con il valore previsto. (La maggior parte dei test formali sull'eteroscedasticità non lo rileverà, ma i soliti grafici diagnostici lo mostreranno chiaramente.)
whuber

0

Nella regressione dei minimi quadrati ponderati (WLS), sono i fattori casuali dei residui stimati che potresti voler vedere sono normalmente distribuiti, sebbene spesso non sia terribilmente importante. I residui stimati possono essere presi in considerazione, come mostrato in un semplice caso di regressione (un regressore e attraverso l'origine), nella parte inferiore della pagina 1 e nelle metà inferiori delle pagine 2 e 7 in https://www.researchgate.net/publication / 263036348_Properties_of_Weighted_Least_Squares_Regression_for_Cutoff_Sampling_in_Establishment_Surveys Comunque, questo potrebbe aiutare a mostrare dove la normalità può entrare in scena.


Benvenuto nel sito, @JimKnaub. Ci piacerebbe averti in giro per prestare la tua esperienza sulla domanda occasionale. Perché non registrare il tuo account? Puoi scoprire come nella sezione Il mio account del nostro centro assistenza . Dato che sei nuovo qui, potresti voler partecipare al nostro tour , che contiene informazioni per i nuovi utenti.
gung - Ripristina Monica

3
Stiamo cercando di creare un archivio permanente di informazioni statistiche di alta qualità sotto forma di domande e risposte. Pertanto, siamo diffidenti nei confronti delle risposte che dipendono dai link, a causa di linkrot. Puoi pubblicare una citazione completa e un riepilogo delle informazioni (ad es. Figure / spiegazioni) dal link in modo che le informazioni rimangano utili anche se il link si interrompe?
gung - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.