Classificazione degli approcci per affrontare le classi squilibrate


8

Qual è il modo migliore per classificare gli approcci che sono stati sviluppati per affrontare il problema della classe di squilibrio?

Questo articolo li classifica in:

  1. Preelaborazione: include il sovracampionamento, il sottocampionamento e metodi ibridi,
  2. Apprendimento sensibile ai costi: comprende metodi diretti e meta-apprendimento che questi ultimi ulteriormente dividono in soglia e campionamento,
  3. Tecniche di ensemble: comprende ensemble sensibili ai costi e preelaborazione dei dati in combinazione con l'apprendimento degli ensemble.

La seconda classificazione:

  1. Pre-elaborazione dei dati: include la modifica della distribuzione e la ponderazione dello spazio dati. L'apprendimento di una classe è considerato come un cambiamento di distribuzione.
  2. Metodi di apprendimento specifici
  3. Post-elaborazione di previsione: include il metodo di soglia e la post-elaborazione sensibile ai costi
  4. Metodi ibridi:

Il terzo articolo :

  1. Metodi a livello di dati
  2. Metodi a livello di algoritmo
  3. Metodi ibridi

L'ultima classificazione considera anche la regolazione dell'output come un approccio indipendente.

Grazie in anticipo.


4
La risposta molto breve: tutti sono i migliori e tutti sono i peggiori! La classificazione e il data mining in generale sono molto sensibili al contesto. Non esiste una soluzione unica per tutte le soluzioni in questo dominio. A proposito, l'approccio migliore, in termini molto generici, è di solito una combinazione delle migliori decisioni a diversi livelli dall'estrazione delle caratteristiche allo schema di valutazione.
Mok

@mok Grazie. Potresti per favore farmi sapere il peso della classe nei classificatori di sklearn, ad esempio la regressione logistica è classificata in quale categoria?
ebrahimi,

@ebrahimi, dovrebbe cadere a livello di algoritmo perché solo i pesi sono regolati secondo un dizionario passato o calcolati (inferiti) secondo i valori di y (classe) e i dati rimangono intatti.
Sanjay Krishna,

@SanjayKrishna Grazie mille. Nel caso della prima categorizzazione, rientra nell'apprendimento sensibile ai costi, non è vero? Inoltre, nel caso della seconda tassonomia, sarebbe classificata nella terza categoria, vale a dire la post-elaborazione sensibile ai costi. è vero? È utile anche la seconda risposta a: stackoverflow.com/questions/32492550/… .
ebrahimi,

Risposte:


5

Per come la vedo io tutte e tre le categorizzazioni concordano in molte cose. Ad esempio, tutti e tre hanno una categoria per le fasi di pre-elaborazione.

Tenderei principalmente a concordare sulla terza categorizzazione in quanto più generica e comprende più cose.

  • La categoria a livello di dati include tutte le fasi di pre-elaborazione che affrontano lo squilibrio di classe (ad es. Campionamento sopra / sotto).
  • Si potrebbe considerare che il livello di algoritmo includa le seconde categorie dei primi due articoli. Qualsiasi modifica all'algoritmo che si occupa dello squilibrio di classe andrebbe qui (ad es. Ponderazione di classe).
  • Infine, una categoria ibrida per combinare i due.

L'unica cosa che manca nei primi due articoli sono le fasi di post-elaborazione, che a dire il vero, non vengono utilizzate nella pratica con la stessa frequenza delle altre.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.