Ho un set di dati binari altamente distorto: ho 1000 volte più esempi della classe negativa rispetto alla classe positiva. Vorrei addestrare un albero insieme (come alberi casuali extra o una foresta casuale) su questi dati, ma è difficile creare set di dati di addestramento che contengano abbastanza esempi della classe positiva.
Quali sarebbero le implicazioni di un approccio di campionamento stratificato per normalizzare il numero di esempi positivi e negativi? In altre parole, è una cattiva idea, ad esempio, gonfiare artificialmente (ricampionando) il numero di esempi di classe positivi nel set di addestramento?