Sto usando il pacchetto randomForest in R (R versione 2.13.1, randomForest versione 4.6-2) per la regressione e ho notato una distorsione significativa nei miei risultati: l'errore di previsione dipende dal valore della variabile di risposta. I valori alti sono sottostimati e quelli bassi sono sovrastimati. Inizialmente sospettavo che questa fosse una conseguenza dei miei dati, ma il semplice esempio che segue suggerisce che ciò è inerente all'algoritmo della foresta casuale:
n = 1000;
x1 = rnorm(n, mean = 0, sd = 1)
response = x1
predictors = data.frame(x1=x1)
rf = randomForest(x=predictors, y=response)
error = response-predict(rf, predictors)
plot(x1, error)
Sospetto che il pregiudizio dipenda dalla distribuzione della risposta, ad esempio, se x1è distribuito uniformemente, non c'è pregiudizio; se x1è distribuito esponenzialmente, il bias è unilaterale. In sostanza, i valori della risposta alle code di una distribuzione normale sono anomali. Non sorprende che un modello abbia difficoltà a prevedere valori anomali. Nel caso di randomForest, un valore di risposta di estrema ampiezza dalla coda di una distribuzione ha meno probabilità di finire in una foglia terminale e il suo effetto sarà sbiadito nella media dell'insieme.
Si noti che ho provato a catturare questo effetto in un esempio precedente, "RandomForest in R code di regressione lineare". Questo è stato un cattivo esempio. Se il bias nell'esempio sopra è veramente inerente all'algoritmo, ne consegue che una correzione del bias potrebbe essere formulata data la distribuzione della risposta che si sta tentando di prevedere, risultando in previsioni più accurate.
I metodi basati su alberi, come la foresta casuale, sono soggetti a distorsioni della distribuzione della risposta? In tal caso, questo è precedentemente noto alla comunità delle statistiche e come viene solitamente corretto (ad esempio un secondo modello che utilizza come input i residui del modello distorto)?
La correzione di una distorsione dipendente dalla risposta è difficile perché, per natura, la risposta non è nota. Sfortunatamente, la risposta stimata / prevista spesso non condivide la stessa relazione con il bias.