Prima di tutto, vorrei descrivere alcuni layout comuni utilizzati dai libri di Data Mining spiegando come gestire i set di dati non bilanciati . Di solito la sezione principale è denominata set di dati non bilanciati e copre queste due sottosezioni: classificazione sensibile ai costi e tecniche di campionamento.
Sembra che di fronte a un problema con una classe rara sia possibile eseguire sia la classificazione sensibile ai costi che il campionamento. Invece, penso che si dovrebbero applicare tecniche sensibili ai costi se la classe rara è anche l'obiettivo della classificazione e una classificazione errata di un record di quella classe è costosa.
D'altro canto, le tecniche di campionamento, come il sovracampionamento e il sottocampionamento, sono utili se l'obiettivo della classificazione è una buona accuratezza complessiva, senza concentrarsi su una classe particolare.
Questa convinzione deriva dalla logica di MetaCost che è un modo generale per rendere un classificatore sensibile ai costi: se si desidera rendere un classificatore sensibile ai costi al fine di penalizzare un errore di classificazione errata della classe rara, si dovrebbe sovra-campionare l'altra classe . In parole povere, il classificatore cerca di adattarsi all'altra classe e diventa specifico per la classe rara.
Questo è l'opposto del campionamento eccessivo della classe rara, che è il modo solitamente suggerito per affrontare questo problema. Il sovracampionamento della classe rara o il sottocampionamento dell'altra classe sono utili per migliorare l'accuratezza complessiva.
Per favore, sarebbe fantastico se confermassi i miei pensieri.
Detto questo, la domanda comune di fronte a un set di dati non bilanciato è:
Dovrei provare a ottenere un set di dati che conta tanti record rari quanti altri?
La mia risposta sarebbe, nel caso tu stia cercando precisione: OK. Puoi eseguirlo scoprendo esempi di classi più rari o eliminando alcuni record dell'altra classe.
Nel caso in cui ti stai concentrando sulla classe rara, con una tecnica sensibile ai costi, risponderei: puoi solo scoprire un esempio di classe più raro ma non dovresti eliminare i record dell'altra classe. In quest'ultimo caso, non sarà possibile consentire al classificatore di adattarsi all'altra classe e il raro errore di classificazione errata della classe potrebbe aumentare.
Cosa risponderesti?