Uso Python per eseguire un modello di foresta casuale sul mio set di dati non bilanciato (la variabile di destinazione era una classe binaria). Quando ho diviso il set di dati di training e testing, ho faticato a usare il campionamento stratificato (come il codice mostrato) oppure no. Finora, ho osservato nel mio progetto che il caso stratificato avrebbe portato a prestazioni del modello più elevate. Ma penso che se userò il mio modello per prevedere i nuovi casi che probabilmente differirebbero molto nella distribuzione della classe target con il mio set di dati corrente. Quindi ho deciso di allentare questo vincolo e usare la divisione non stratificata. Qualcuno potrebbe consigliare di chiarire questo punto?
train,test=train_test_split(myDataset, test_size=0.25, stratify=y)