Lo squilibrio non è necessariamente un problema, ma può esserlo come ci si arriva. Non è corretto basare la propria strategia di campionamento sulla variabile target. Poiché questa variabile incorpora la casualità nel modello di regressione, se si campiona in base a questo, si avranno grossi problemi a fare qualsiasi tipo di inferenza. Dubito che sia possibile "annullare" questi problemi.
È possibile legittimamente sovrastampare o sottocampionare in base alle variabili predittive . In questo caso, purché tu controlli attentamente che le assunzioni del modello sembrino valide (ad esempio l'omoscedasticità che viene in mente importante in questa situazione, se hai una regressione "ordinaria" con le solite assunzioni), non penso che tu debba annulla il sovracampionamento durante la previsione. Il tuo caso ora sarebbe simile a un analista che ha progettato un esperimento in modo esplicito per avere un intervallo bilanciato delle variabili predittive.
Modifica - aggiunta - espansione sul perché è male campionare in base a Y
Nel montaggio del modello standard di regressione l' dovrebbe essere distribuito normalmente, hanno media zero, e di essere indipendenti e identicamente distribuite. Se scegli il tuo campione in base al valore di y (che include un contributo di di ), l'e non avrà più una media di zero o sarà distribuita in modo identico. Ad esempio, è possibile che vengano selezionati meno valori bassi di y che potrebbero includere valori molto bassi di e. Ciò rovina qualsiasi inferenza basata sui soliti mezzi di adattamento di tali modelli. Le correzioni possono essere rese simili a quelle apportate in econometria per il montaggio di modelli troncati, ma sono una seccatura e richiedono ipotesi aggiuntive e dovrebbero essere impiegate solo quando non c'è alternativa.y= Xb + eeeXB
Considera l'illustrazione estrema di seguito. Se si troncano i dati a un valore arbitrario per la variabile di risposta, si introducono errori molto significativi. Se lo tronchi per una variabile esplicativa, non c'è necessariamente un problema. Vedete che la linea verde, basata su un sottoinsieme scelto per i loro valori predittivi, è molto vicina alla vera linea adattata; questo non si può dire della linea blu, basata solo sui punti blu.
Ciò si estende al caso meno grave di sottocampionamento o sovracampionamento (poiché il troncamento può essere visto come sottocampionamento portato al suo estremo logico).
# generate data
x <- rnorm(100)
y <- 3 + 2*x + rnorm(100)
# demonstrate
plot(x,y, bty="l")
abline(v=0, col="grey70")
abline(h=4, col="grey70")
abline(3,2, col=1)
abline(lm(y~x), col=2)
abline(lm(y[x>0] ~ x[x>0]), col=3)
abline(lm(y[y>4] ~ x[y>4]), col=4)
points(x[y>4], y[y>4], pch=19, col=4)
points(x[x>0], y[x>0], pch=1, cex=1.5, col=3)
legend(-2.5,8, legend=c("True line", "Fitted - all data", "Fitted - subset based on x",
"Fitted - subset based on y"), lty=1, col=1:4, bty="n")