Questo problema ha un aspetto esplorativo. John Tukey descrive molte procedure per esplorare l'eteroscedasticità nella sua classica analisi dei dati esplorativi (Addison-Wesley 1977). Forse il più direttamente utile è una variante della sua " trama schematica errante ". Questo suddivide una variabile (come il valore previsto) in bin e utilizza i riepiloghi di lettere m (generalizzazioni di grafici a scatole) per mostrare la posizione, la diffusione e la forma dell'altra variabile per ciascun cestino. Le statistiche delle lettere m vengono ulteriormente livellate al fine di enfatizzare gli schemi generali piuttosto che le deviazioni casuali.
Una versione rapida può essere elaborata sfruttando la boxplot
procedura in R
. Illustriamo con dati simulati fortemente eteroscedastici:
set.seed(17)
n <- 500
x <- rgamma(n, shape=6, scale=1/2)
e <- rnorm(length(x), sd=abs(sin(x)))
y <- x + e
Otteniamo i valori e i residui previsti dalla regressione OLS:
fit <- lm(y ~ x)
res <- residuals(fit)
pred <- predict(fit)
Ecco quindi il diagramma schematico errante che utilizza i bin di conteggio uguale per i valori previsti. Lo uso lowess
per un liscio veloce e sporco.
n.bins <- 17
bins <- cut(pred, quantile(pred, probs = seq(0, 1, 1/n.bins)))
b <- boxplot(res ~ bins, boxwex=1/2, main="Residuals vs. Predicted",
xlab="Predicted", ylab="Residual")
colors <- hsv(seq(2/6, 1, 1/6))
temp <- sapply(1:5, function(i) lines(lowess(1:n.bins, b$stats[i,], f=.25),
col=colors[i], lwd=2))
La curva blu leviga le mediane. La sua tendenza orizzontale indica che la regressione è generalmente adatta. Le altre curve levigano le estremità della scatola (quartili) e le recinzioni (che sono in genere valori estremi). La loro forte convergenza e la successiva separazione testimoniano l'eteroscedasticità e ci aiutano a caratterizzarla e quantificarla.
(Notare la scala non lineare sull'asse orizzontale, che riflette la distribuzione dei valori previsti. Con un po 'più di lavoro questo asse potrebbe essere linearizzato, il che a volte è utile.)