Ho una preparazione informatica ma sto cercando di insegnarmi la scienza dei dati risolvendo problemi su Internet.
Ho lavorato su questo problema per le ultime due settimane (circa 900 righe e 10 funzioni). Inizialmente stavo usando la regressione logistica, ma ora sono passato a foreste casuali. Quando eseguo il mio modello di foresta casuale sui miei dati di allenamento ottengo valori molto alti per auc (> 99%). Tuttavia, quando eseguo lo stesso modello sui dati del test, i risultati non sono così buoni (precisione di circa il 77%). Questo mi porta a credere che sto adattando troppo i dati di allenamento.
Quali sono le migliori pratiche in materia di prevenzione di un adattamento eccessivo nelle foreste casuali?
Sto usando r e rstudio come il mio ambiente di sviluppo. Sto usando il randomForest
pacchetto e ho accettato le impostazioni predefinite per tutti i parametri