Quando le classi sbilanciate in eccesso o in sottocampionamento, la massimizzazione della precisione differisce dalla minimizzazione dei costi di classificazione errata?

Prima di tutto, vorrei descrivere alcuni layout comuni utilizzati dai libri di Data Mining spiegando come gestire i set di dati non bilanciati . Di solito la sezione principale è denominata set di dati non bilanciati e copre queste due sottosezioni: classificazione sensibile ai costi e tecniche di campionamento.

Sembra che di fronte a un problema con una classe rara sia possibile eseguire sia la classificazione sensibile ai costi che il campionamento. Invece, penso che si dovrebbero applicare tecniche sensibili ai costi se la classe rara è anche l'obiettivo della classificazione e una classificazione errata di un record di quella classe è costosa.

D'altro canto, le tecniche di campionamento, come il sovracampionamento e il sottocampionamento, sono utili se l'obiettivo della classificazione è una buona accuratezza complessiva, senza concentrarsi su una classe particolare.

Questa convinzione deriva dalla logica di MetaCost che è un modo generale per rendere un classificatore sensibile ai costi: se si desidera rendere un classificatore sensibile ai costi al fine di penalizzare un errore di classificazione errata della classe rara, si dovrebbe sovra-campionare l'altra classe . In parole povere, il classificatore cerca di adattarsi all'altra classe e diventa specifico per la classe rara.

Questo è l'opposto del campionamento eccessivo della classe rara, che è il modo solitamente suggerito per affrontare questo problema. Il sovracampionamento della classe rara o il sottocampionamento dell'altra classe sono utili per migliorare l'accuratezza complessiva.

Per favore, sarebbe fantastico se confermassi i miei pensieri.

Detto questo, la domanda comune di fronte a un set di dati non bilanciato è:

Dovrei provare a ottenere un set di dati che conta tanti record rari quanti altri?

La mia risposta sarebbe, nel caso tu stia cercando precisione: OK. Puoi eseguirlo scoprendo esempi di classi più rari o eliminando alcuni record dell'altra classe.

Nel caso in cui ti stai concentrando sulla classe rara, con una tecnica sensibile ai costi, risponderei: puoi solo scoprire un esempio di classe più raro ma non dovresti eliminare i record dell'altra classe. In quest'ultimo caso, non sarà possibile consentire al classificatore di adattarsi all'altra classe e il raro errore di classificazione errata della classe potrebbe aumentare.

Cosa risponderesti?

machine-learning classification unbalanced-classes

— Simone
fonte

"Scoprire" nuovi dischi per le classi rare potrebbe essere impossibile. Suppongo che i dati siano strutturati in questo modo perché è costoso (bioinformatica) o rischioso (prestito bancario) creare eventi di classe più rara.

— Steffen,

Certo, ma è una soluzione proposta comune. Tuttavia, è vero che se riesci a trovare esempi di classi più rari potresti essere in grado di scoprire anche altri esempi. Perché il set di addestramento dovrebbe essere un campione rappresentativo dell'universo discografico. Quindi, mi sembra che stia eseguendo un campionamento eccessivo.

— Simone,

È una buona domanda Personalmente, la mia risposta sarebbe che non ha mai senso buttare via i dati (a meno che non sia per ragioni computazionali), poiché più dati hai, migliore sarà il tuo modello di mondo. Pertanto, suggerirei che la modifica della funzione di costo in modo appropriato per l'attività svolta sia sufficiente. Ad esempio, se sei interessato a una particolare classe rara, puoi rendere le classificazioni errate di questa classe solo più costose; se sei interessato a una misura equilibrata, è appropriato qualcosa come Balanced Error Rate (la media degli errori su ciascuna classe) o il coefficiente di correlazione di Matthews ; se sei interessato solo all'errore di classificazione generale, la tradizionale perdita 0-1 .

Un approccio moderno al problema consiste nell'utilizzare l'apprendimento attivo. Ad esempio, Hospedales et al (2011) "Alla ricerca di classi rare: apprendimento attivo con modelli generativi e discriminatori, Transazioni IEEE su conoscenza e ingegneria dei dati, (TKDE 2011) . Tuttavia, credo che questi approcci siano ancora relativamente meno maturi.

— tdc
fonte

Misura interessante quella dei Metthews nel caso in cui fosse necessaria una misura equilibrata. Tuttavia, dato che non vogliamo eliminare alcun record, prima di eseguire campionamenti o modifiche alla funzione di costo, riequilibrereste il set di dati aggiungendo rari esempi di classe? Penso che la risposta potrebbe essere NO. Perché finché scopri esempi di classe rari puoi scoprire altri esempi. Pertanto, per ottenere una misura meglio bilanciata o una misura di prestazione di classe rara migliore (ad es. Misura F) eseguirò una tecnica (come campionamento o mod del costo) solo dopo la fase di raccolta dei dati. Sei d'accordo?

— Simone,

D'accordo, qualsiasi operazione come questa dovrebbe essere eseguita dopo la fase di raccolta dei dati.

— TCD,