Penso che questa sia una domanda semplice, anche se il ragionamento alla base del perché o del perché potrebbe non esserlo. Il motivo per cui mi chiedo è che di recente ho scritto la mia implementazione di una RF e sebbene funzioni bene, non sta funzionando come mi aspettavo (basato sul set di dati della competizione Kaggle Photo Quality Prediction , i punteggi vincenti e alcuni dei le informazioni successive disponibili su quali tecniche sono state utilizzate).
La prima cosa che faccio in tali circostanze è l'errore di previsione della trama per il mio modello, quindi per ogni dato valore di previsione determino la distorsione media (o la deviazione) dal valore target corretto. Per la mia RF ho ottenuto questa trama:

Mi chiedo se questo è un modello di polarizzazione comunemente osservato per RF (in caso contrario, potrebbe forse essere qualcosa di specifico per il set di dati e / o la mia implementazione). Ovviamente posso usare questa trama per migliorare le previsioni usandola per compensare la distorsione, ma mi chiedo se ci sia un errore o una lacuna più fondamentale nel modello RF stesso che deve essere affrontato. Grazie.
== ADDENDUM ==
La mia indagine iniziale è su questo post di blog Random Forest Bias - Update