Abbiamo già avuto più domande sui dati sbilanciati quando si utilizzano la regressione logistica , SVM , alberi delle decisioni , insaccamento e una serie di altre domande simili, ciò che lo rende un argomento molto popolare! Sfortunatamente, ciascuna delle domande sembra essere specifica dell'algoritmo e non ho trovato linee guida generali per la gestione di dati sbilanciati.
Citando una delle risposte di Marc Claesen , trattando dati sbilanciati
(...) dipende fortemente dal metodo di apprendimento. La maggior parte degli approcci per scopi generali ha uno (o più) modi per affrontarlo.
Ma quando dovremmo esattamente preoccuparci dei dati sbilanciati? Quali algoritmi sono maggiormente interessati e quali sono in grado di gestirlo? Quali algoritmi avrebbero bisogno di noi per bilanciare i dati? Sono consapevole che discutere di ciascuno degli algoritmi sarebbe impossibile sul sito di domande e risposte come questo, sto piuttosto cercando una guida generale su quando potrebbe essere un problema.