1) Come posso modificare la soglia di classificazione (penso che sia di default 0,5) in RandomForest in sklearn?
2) come posso sottocampionare in sklearn?
3) Ho il seguente risultato dal classificatore RandomForest: [[1635 1297] [520 3624]]
precision recall f1-score support
class 0 0.76 0.56 0.64 2932
class 1 0.74 0.87 0.80 4144
media / totale 0,75 0,74 0,73 7076
in primo luogo, i dati sono sbilanciati (30% dalla classe 0 e 70% dalla classe 1). Quindi, penso che il classificatore abbia più probabilità di essere di parte per la classe 1, il che significa spostare alcuni dalla classe 0 alla classe 1 (ci sono 1297 classificazione errata per la classe 0 ma 520 classificazione errata per la classe 1). Come posso risolvere questo problema? se il downsampling può aiutare? o cambiando la soglia di classificazione?
Aggiornamento: la classe 0 ha il 40% della popolazione mentre la classe 1 è il 60%. Tuttavia, la deriva dalla classe 0 alla classe 1 (1297) è alta mentre voglio che diventi bassa.