Sto esplorando diversi metodi di classificazione per un progetto a cui sto lavorando e sono interessato a provare le foreste casuali. Sto cercando di educare me stesso mentre vado avanti e apprezzerei qualsiasi aiuto fornito dalla comunità CV.
Ho diviso i miei dati in set di allenamento / test. Dalla sperimentazione con foreste casuali in R (usando il pacchetto randomForest), ho avuto problemi con un alto tasso di classificazione errata per la mia classe più piccola. Ho letto questo documento sull'esecuzione di foreste casuali su dati sbilanciati e gli autori hanno presentato due metodi per gestire lo squilibrio di classe quando si usano foreste casuali.
1. Foreste casuali ponderate
2. Foreste casuali equilibrate
Il pacchetto R non consente la ponderazione delle classi (dai forum della guida R, ho letto che il parametro classwt non funziona correttamente ed è programmato come futura correzione di bug), quindi sono rimasto con l'opzione 2. Sono in grado di specificare il numero di oggetti campionati da ogni classe per ogni iterazione della foresta casuale.
Mi sento a disagio nell'impostare le stesse dimensioni del campione per foreste casuali, poiché mi sento come se stessi perdendo troppe informazioni sulla classe più ampia che porta a scarse prestazioni con dati futuri. I tassi di errata classificazione durante il downsampling della classe più grande hanno dimostrato di migliorare, ma mi chiedevo se ci fossero altri modi per gestire le dimensioni delle classi squilibrate nelle foreste casuali?