Ultimamente ho pensato molto al "problema di squilibrio di classe" nell'apprendimento automatico / statistico e sto attingendo sempre più da un sentimento che non capisco cosa stia succedendo.
Prima lasciami definire (o tentare di) definire i miei termini:
Il problema dello squilibrio di classe nell'apprendimento automatico / statistico è l'osservazione che alcuni algoritmi di classificazione binaria (*) non funzionano bene quando la proporzione da 0 classi a 1 classi è molto distorta.
Quindi, in quanto sopra, ad esempio, se ci fossero cento classi per ogni singola classe , direi che lo squilibrio di classe è compreso tra e o .
La maggior parte delle affermazioni sul problema che ho visto mancano di ciò che considererei una qualificazione sufficiente (quali modelli lottano, quanto lo squilibrio è un problema), e questa è una fonte della mia confusione.
Un sondaggio dei testi standard nell'apprendimento automatico / statistico risulta poco:
- Gli elementi di inclinazione statistica e introduzione all'apprendimento statistico non contengono "squilibri di classe" nell'indice.
Anche Machine Learning per Predictive Data Analytics non contiene "squilibri di classe" nell'indice.
Di Murphy Machine Learning: una probabilistica prospettiva fa contenere "classe squilibrio * nell'indice Il riferimento è a una sezione su SVM, dove ho trovato il seguente commento allettante.:
Vale la pena ricordare che tutte queste difficoltà, e la pletora di euristiche che sono state proposte per risolverle, sorgono fondamentalmente perché le SVM non modellano l'incertezza usando le probabilità, quindi i loro punteggi di output non sono comparabili tra le classi.
Questo commento si fonda con la mia intuizione ed esperienza: nel mio lavoro precedente avremmo sistematicamente adattato regressioni logistiche e modelli di alberi potenziati con gradiente (per ridurre al minimo la probabilità di log binomiale) a dati sbilanciati (nell'ordine di uno squilibrio di classe ), con nessun problema evidente nelle prestazioni.
Ho letto modelli albero (da qualche parte) che la classificazione basati su alberi (se stessi e la foresta casuale) , inoltre, soffrono il problema di classe squilibrio. Questo confonde un po 'le acque, gli alberi, in un certo senso, restituiscono probabilità: il record di voto per la classe target in ciascun nodo terminale dell'albero.
Quindi, per concludere, quello che sto veramente cercando è una comprensione concettuale delle forze che portano al problema di squilibrio di classe (se esiste).
- È qualcosa che facciamo a noi stessi con algoritmi scelti male e soglie di classificazione predefinite pigre?
- Svanisce se adattiamo sempre modelli di probabilità che ottimizzano i criteri di punteggio adeguati? Detto diversamente, la causa è semplicemente una cattiva scelta della funzione di perdita, vale a dire la valutazione del potere predittivo di un modello basato su rigide regole di classificazione e accuratezza complessiva?
- In tal caso, i modelli che non ottimizzano le regole di punteggio adeguate sono inutili (o almeno meno utili)?
(*) Per classificazione intendo qualsiasi modello statistico adatto ai dati di risposta binaria. Io non parto dal presupposto che il mio obiettivo è un compito difficile da una classe o l'altro, per quanto possa essere.
poor choice of loss function
mio elenco. Quindi, pensi che questo sia vero anche per le regole di punteggio corrette come funzioni di perdita?