Synthetic Minority Oversampling Technique (SMOTE) è una tecnica di sovracampionamento utilizzata in un problema con un set di dati sbilanciato. Finora ho un'idea di come applicarlo su dati generici e strutturati. Ma è possibile applicarlo sul problema della classificazione del testo? Quale parte dei dati è necessaria per sottocampionare? C'è già un'altra domanda al riguardo, ma non ha una risposta. Dove posso forse imparare a iniziare con questo?