Il mio compito di "machine learning" è quello di separare il traffico Internet benigno dal traffico malevolo. Nello scenario del mondo reale, la maggior parte (diciamo del 90% o più) del traffico Internet è benigna. Quindi ho sentito che avrei dovuto scegliere una configurazione di dati simile per addestrare anche i miei modelli. Ma mi sono imbattuto in uno o due articoli di ricerca (nella mia area di lavoro) che hanno utilizzato un approccio di dati "bilanciamento di classe" per addestrare i modelli, implicando un numero uguale di casi di traffico benigno e dannoso.
In generale, se sto costruendo modelli di apprendimento automatico, dovrei cercare un set di dati che è rappresentativo del problema del mondo reale o che sia un set di dati bilanciato più adatto alla costruzione dei modelli (poiché alcuni classificatori non si comportano bene con uno squilibrio di classe, oppure per altri motivi che non mi sono noti)?
Qualcuno può fare luce sui pro e contro di entrambe le scelte e come decidere quale scegliere?