Ho un problema di classificazione con circa 1000 campioni positivi e 10000 negativi nel set di allenamento. Quindi questo set di dati è abbastanza sbilanciato. La semplice foresta casuale sta solo cercando di contrassegnare tutti i campioni di test come una classe di maggioranza.
Ecco alcune buone risposte sul sottocampionamento e sulla foresta casuale ponderata: quali sono le implicazioni per l'addestramento di un insieme di alberi con set di dati altamente distorti?
Quali metodi di classificazione oltre a RF possono gestire il problema nel migliore dei modi?