Vorrei testare il mio modello addestrato su un set di dati non bilanciato. Sono disponibili algoritmi per generare dati sintetici da un set di dati con etichette bilanciate (spam / non spam)?
Vorrei testare il mio modello addestrato su un set di dati non bilanciato. Sono disponibili algoritmi per generare dati sintetici da un set di dati con etichette bilanciate (spam / non spam)?
Risposte:
Prova SMOTE , è un algoritmo utilizzato per il sovracampionamento. Crea campioni sintetici della classe che si desidera sovracampionare.
Puoi usarlo per creare qualsiasi numero di campioni di cui hai bisogno.