Sto usando una foresta casuale su dati raggruppati ad alta dimensione (50 variabili di input numeriche) che hanno una struttura gerarchica. I dati sono stati raccolti con 6 repliche in 30 posizioni di 70 oggetti diversi, ottenendo 12600 punti dati, che non sono indipendenti.
Sembra che la foresta casuale stia adattando troppo i dati, poiché l'errore di oob è molto più piccolo dell'errore che si ottiene quando si lasciano i dati da un oggetto fuori durante l'allenamento e quindi si prevede il risultato dell'oggetto lasciato fuori con la foresta casuale addestrata. Inoltre ho residui correlati.
Penso che il sovradimensionamento sia causato dal fatto che la foresta casuale si aspetta dati indipendenti. È possibile dire alla foresta casuale della struttura gerarchica dei dati? Oppure esiste un altro potente insieme o metodo di contrazione in grado di gestire dati raggruppati ad alta dimensione con una forte struttura di interazione?
Qualche suggerimento su come posso fare di meglio?