Misure di eteroscedasticità dei residui


16

Questo link di Wikipedia elenca una serie di tecniche per rilevare l'eteroscedasticità dei residui di OLS. Vorrei imparare quale tecnica pratica è più efficace nel rilevare le regioni colpite dall'eteroscedasticità.

Ad esempio, qui la regione centrale della trama OLS "Residuals vs Fitted" sembra avere una varianza maggiore rispetto ai lati della trama (non sono del tutto sicuro nei fatti, ma supponiamo che sia il caso per il bene della domanda). Per confermare, osservando le etichette di errore nel diagramma QQ possiamo vedere che corrispondono alle etichette di errore al centro del diagramma Residui.

Ma come possiamo quantificare la regione dei residui con una varianza significativamente più elevata?

heteroscedasticity


2
Non sono sicuro che tu abbia ragione che ci sia una maggiore varianza nel mezzo. Il fatto che gli outlier si trovino nella regione centrale mi sembra probabile che sia il risultato del fatto che è lì che si trova la maggior parte dei dati. Naturalmente, questo non invalida la tua domanda.
Peter Ellis,

1
Il qqplot ha lo scopo di identificare direttamente non anomalia della distribuzione e varianze non disomogenee.
Michael R. Chernick,

@PeterEllis Sì, ho specificato nella domanda che non sono sicuro che la varianza sia diversa, ma ho avuto questa immagine diagnostica a portata di mano e potrebbe esserci effettivamente una certa eteroscedasticità nell'esempio.
Robert Kubrick,

@MichaelChernick Ho citato solo il qqplot per illustrare come gli errori più elevati sembrano concentrarsi nel mezzo del diagramma dei residui, indicando quindi potenzialmente una varianza più elevata in quell'area.
Robert Kubrick,

Risposte:


15

Questo problema ha un aspetto esplorativo. John Tukey descrive molte procedure per esplorare l'eteroscedasticità nella sua classica analisi dei dati esplorativi (Addison-Wesley 1977). Forse il più direttamente utile è una variante della sua " trama schematica errante ". Questo suddivide una variabile (come il valore previsto) in bin e utilizza i riepiloghi di lettere m (generalizzazioni di grafici a scatole) per mostrare la posizione, la diffusione e la forma dell'altra variabile per ciascun cestino. Le statistiche delle lettere m vengono ulteriormente livellate al fine di enfatizzare gli schemi generali piuttosto che le deviazioni casuali.

Una versione rapida può essere elaborata sfruttando la boxplotprocedura in R. Illustriamo con dati simulati fortemente eteroscedastici:

set.seed(17)
n <- 500
x <- rgamma(n, shape=6, scale=1/2)
e <- rnorm(length(x), sd=abs(sin(x)))
y <- x + e

Dati

Otteniamo i valori e i residui previsti dalla regressione OLS:

fit <- lm(y ~ x)
res <- residuals(fit)
pred <- predict(fit)

Ecco quindi il diagramma schematico errante che utilizza i bin di conteggio uguale per i valori previsti. Lo uso lowessper un liscio veloce e sporco.

n.bins <- 17
bins <- cut(pred, quantile(pred, probs = seq(0, 1, 1/n.bins)))
b <- boxplot(res ~ bins, boxwex=1/2, main="Residuals vs. Predicted",
             xlab="Predicted", ylab="Residual")
colors <- hsv(seq(2/6, 1, 1/6))
temp <- sapply(1:5, function(i) lines(lowess(1:n.bins, b$stats[i,], f=.25), 
        col=colors[i], lwd=2))

Trama schematica errante

La curva blu leviga le mediane. La sua tendenza orizzontale indica che la regressione è generalmente adatta. Le altre curve levigano le estremità della scatola (quartili) e le recinzioni (che sono in genere valori estremi). La loro forte convergenza e la successiva separazione testimoniano l'eteroscedasticità e ci aiutano a caratterizzarla e quantificarla.

(Notare la scala non lineare sull'asse orizzontale, che riflette la distribuzione dei valori previsti. Con un po 'più di lavoro questo asse potrebbe essere linearizzato, il che a volte è utile.)


6
Un bell'esempio, avrei pensato che alcune implementazioni dei quantili in esecuzione fossero disponibili in R (per evitare il problema con i bin tutti). Un po 'mi ricorda trame di borse . Vedi anche l' estensione di Rob Hyndman nel suo pacchetto Rainbow.
Andy W,

9

Tipicamente, l'eteroschedasticità è modellata usando un approccio Breusch-Pagan. I residui della regressione lineare vengono quindi quadrati e regrediti sulle variabili nel modello lineare originale. Quest'ultima regressione è chiamata regressione ausiliaria .

nRun'2nRun'2R2

Per i tuoi scopi, potresti concentrarti sui singoli coefficienti di questo modello per vedere quali variabili sono più predittive dei risultati di varianza alta o bassa.


1
+1 Ma si noti che tali test sono limitati nelle forme di eteroscedasticità che possono rilevare. Esempi come quello mostrato nella mia risposta possono sfuggire, anche se l'eteroscedasticità è estremamente forte.
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.