Questo problema ha un aspetto esplorativo. John Tukey descrive molte procedure per esplorare l'eteroscedasticità nella sua classica analisi dei dati esplorativi (Addison-Wesley 1977). Forse il più direttamente utile è una variante della sua " trama schematica errante ". Questo suddivide una variabile (come il valore previsto) in bin e utilizza i riepiloghi di lettere m (generalizzazioni di grafici a scatole) per mostrare la posizione, la diffusione e la forma dell'altra variabile per ciascun cestino. Le statistiche delle lettere m vengono ulteriormente livellate al fine di enfatizzare gli schemi generali piuttosto che le deviazioni casuali.
Una versione rapida può essere elaborata sfruttando la boxplotprocedura in R. Illustriamo con dati simulati fortemente eteroscedastici:
set.seed(17)
n <- 500
x <- rgamma(n, shape=6, scale=1/2)
e <- rnorm(length(x), sd=abs(sin(x)))
y <- x + e

Otteniamo i valori e i residui previsti dalla regressione OLS:
fit <- lm(y ~ x)
res <- residuals(fit)
pred <- predict(fit)
Ecco quindi il diagramma schematico errante che utilizza i bin di conteggio uguale per i valori previsti. Lo uso lowessper un liscio veloce e sporco.
n.bins <- 17
bins <- cut(pred, quantile(pred, probs = seq(0, 1, 1/n.bins)))
b <- boxplot(res ~ bins, boxwex=1/2, main="Residuals vs. Predicted",
xlab="Predicted", ylab="Residual")
colors <- hsv(seq(2/6, 1, 1/6))
temp <- sapply(1:5, function(i) lines(lowess(1:n.bins, b$stats[i,], f=.25),
col=colors[i], lwd=2))

La curva blu leviga le mediane. La sua tendenza orizzontale indica che la regressione è generalmente adatta. Le altre curve levigano le estremità della scatola (quartili) e le recinzioni (che sono in genere valori estremi). La loro forte convergenza e la successiva separazione testimoniano l'eteroscedasticità e ci aiutano a caratterizzarla e quantificarla.
(Notare la scala non lineare sull'asse orizzontale, che riflette la distribuzione dei valori previsti. Con un po 'più di lavoro questo asse potrebbe essere linearizzato, il che a volte è utile.)