Sto lavorando a dati gravemente squilibrati. In letteratura, vengono utilizzati diversi metodi per riequilibrare i dati utilizzando il ricampionamento (sovra o sottocampionamento). Due buoni approcci sono:
SMOTE: Tecnica di sovracampionamento di minoranza sintetica ( SMOTE )
ADASYN: Approccio di campionamento sintetico adattivo per l'apprendimento sbilanciato ( ADASYN )
Ho implementato ADASYN per la sua natura adattiva e facilità di estensione a problemi multi-classe.
La mia domanda è come testare i dati di sovracampionamento prodotti da ADASYN (o qualsiasi altro metodo di sovracampionamento). Nei due articoli citati non è chiaro come abbiano eseguito i loro esperimenti. Esistono due scenari:
1- Sovracampionare l'intero set di dati, quindi dividerlo in set di addestramento e test (o convalida incrociata).
2- Dopo aver diviso il set di dati originale, eseguire il sovracampionamento solo sul set di training e testare sul set di test di dati originale (può essere eseguito con validazione incrociata).
Nel primo caso i risultati sono molto migliori che senza un sovracampionamento, ma sono preoccupato se ci sia un eccesso di adattamento. Mentre nel secondo caso i risultati sono leggermente migliori che senza sovracampionamento e molto peggio del primo caso. Ma la preoccupazione per il secondo caso è se tutti i campioni di classe minoritaria vanno al set di test, quindi non si otterrà alcun beneficio con il sovracampionamento.
Non sono sicuro se ci sono altre impostazioni per testare tali dati.