Come posso affrontare un problema di classificazione in cui una delle classi è definita da "nessuna delle altre"

Supponiamo che io sia interessato a tre classi , , . Ma il mio set di dati contiene in realtà diverse altre classi reali . $c_1$ $c_2$ $c_3$ $(c_j)_{j=4}^n$

La risposta ovvia è definire una nuova classe che riferimento a tutte le classi , ma sospetto che questa non sia una buona idea poiché i campioni in saranno rari e non molto simili tra loro. $\hat c_4$ $c_j$ $j>3$ $\hat c_4$

Per visualizzare ciò che sto cercando di dire, supponiamo di avere i seguenti due spazi variabili e le classi , , , sono rappresentate in rosso, fino, verde e nero rispettivamente. È così che sospetto che i miei dati sarebbero simili. $c_1$ $c_2$ $c_3$ $\hat c_4= \bigcup_{j=4}^n c_j$

Esiste un modo standard per affrontare questo problema? Quale sarebbe il classificatore più efficiente e perché?

machine-learning classification

— h3h325
fonte

Prendi in considerazione l'uso di uno contro resto en.wikipedia.org/wiki/Multiclass_classification#One-vs.-rest

— DaL

Potresti voler esplorare modelli senza etichetta positivi . Sembra un problema simile, tranne per il fatto che è multiclasse, non binario come la maggior parte dei problemi PU.

— Ricardo Cruz,

$\hat{c_4}$

$c_1,c_2,c_3$

$cent_j = \frac{\sum\limits_{x_i\in D: y_i=j}x_i}{\sum\limits_{x_i\in D: y_i=j}1}$ $c_1,c_2,c_3, \hat{c_4}$

— Bogas
fonte

Il suggerimento di Bogas è ottimo se non hai molte sovrapposizioni di classe. Altrimenti, scegli un modello con più etichette.

— Ricardo Cruz,

Questo è un en.wikipedia.org/wiki/Cascading_classifiers

— Emre