In una domanda recente, ben accolta, Tim chiede quando i dati sbilanciati sono davvero un problema in Machine Learning ? La premessa della domanda è che c'è molta letteratura sull'apprendimento automatico che discute dell'equilibrio delle classi e del problema delle classi squilibrate . L'idea è che i set di dati con uno squilibrio tra la classe positiva e negativa causino problemi per alcuni algoritmi di classificazione dell'apprendimento automatico (qui includo i modelli probabilistici) e si dovrebbero cercare metodi per "bilanciare" il set di dati, ripristinando il perfetto 50/50 diviso tra classi positive e negative.
Il senso generale delle risposte votate è che "non lo è, almeno se si è premurosi nella modellazione". M. Henry L., in un commento votato a una risposta accettata, afferma
[...] non esiste un problema di basso livello con l'utilizzo di dati non bilanciati. Nella mia esperienza, il consiglio di "evitare dati non bilanciati" è specifico dell'algoritmo o saggezza ereditata. Concordo con AdamO sul fatto che, in generale, i dati sbilanciati non presentano problemi concettuali a un modello ben specificato.
AdamO sostiene che il "problema" con l'equilibrio di classe è davvero una rarità di classe
Pertanto, almeno nella regressione (ma sospetto in tutte le circostanze), l'unico problema con i dati sbilanciati è che hai effettivamente dimensioni ridotte del campione. Se un metodo è adatto al numero di persone nella classe più rara, non dovrebbero esserci problemi se la loro percentuale di membri è squilibrata.
Se questo è il vero problema a portata di mano, lascia una domanda aperta: qual è lo scopo di tutti i metodi di ricampionamento destinati a bilanciare il set di dati: sovracampionamento, sottocampionamento, SMOTE, ecc.? Chiaramente non affrontano il problema di avere implicitamente una piccola dimensione del campione, non è possibile creare informazioni dal nulla!