Creazione di un set di dati non bilanciato


11

Vorrei testare il mio modello addestrato su un set di dati non bilanciato. Sono disponibili algoritmi per generare dati sintetici da un set di dati con etichette bilanciate (spam / non spam)?


È sempre possibile sbilanciare qualsiasi set di dati semplicemente sottocampionando una classe.
user2974951

Risposte:


8

Prova SMOTE , è un algoritmo utilizzato per il sovracampionamento. Crea campioni sintetici della classe che si desidera sovracampionare.

Puoi usarlo per creare qualsiasi numero di campioni di cui hai bisogno.


1
SMOTE può essere utilizzato anche per il sottocampionamento?
Stuart Peterson,

Bene, puoi ottenere il sottocampionamento di classe A sovracampionando la classe non A ...
kjetil b halvorsen

3
@StuartPeterson No, SMOTE è un algoritmo di sovracampionamento, ma ci sono molti altri algoritmi di sottocampionamento
Mary93
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.