Qual è la differenza tra un problema multiclasse e un problema multilabel?
Qual è la differenza tra un problema multiclasse e un problema multilabel?
Risposte:
Sospetto che la differenza sia che nei problemi multi-classe le classi si escludono a vicenda, mentre per problemi multi-etichetta ogni etichetta rappresenta un compito di classificazione diverso, ma i compiti sono in qualche modo correlati (quindi c'è un vantaggio nel affrontarli insieme piuttosto che separatamente ). Ad esempio, nel famoso set di dati di granchi leptograspus ci sono esempi di maschi e femmine di due forme cromatiche di granchio. Potresti affrontarlo come un problema multi-classe con quattro classi (maschio-blu, femmina-blu, maschio-arancio, femmina-arancio) o come problema multi-etichetta, in cui un'etichetta sarebbe maschio / femmina e l'altra blu /arancia. Essenzialmente in problemi con più etichette un modello può appartenere a più di una classe.
Classificazione multiclasse indica un'attività di classificazione con più di due classi; ad esempio, classificare una serie di immagini di frutti che possono essere arance, mele o pere. La classificazione multiclasse presuppone che ogni campione sia assegnato a una e una sola etichetta: un frutto può essere una mela o una pera ma non entrambi allo stesso tempo.
La classificazione multilivello assegna a ciascun campione un set di etichette target. Questo può essere considerato come una previsione delle proprietà di un punto dati che non si escludono a vicenda, ad esempio argomenti rilevanti per un documento. Un testo potrebbe riguardare qualsiasi religione, politica, finanza o istruzione contemporaneamente o nessuna di queste.
Tratto da http://scikit-learn.org/stable/modules/multiclass.html
A complemento delle altre risposte, ecco alcune cifre. Una riga = output previsto per un campione.
Una colonna = una classe (codifica one-hot)
Una colonna = una classe
Vedi che:
Come nota a margine, nulla ti impedisce di avere un problema di classificazione multioutput-multiclass , ad esempio:
Un problema multi-classe ha l'assegnazione di istanze a una raccolta di classi finita, che si escludono a vicenda. Come nell'esempio già dato dei granchi (da @Dikran): maschio-blu, femmina-blu, maschio-arancio, femmina-arancio. Ognuno di questi è esclusivo degli altri e nel loro insieme sono completi.
Una forma di problema con più etichette è dividerle in due etichette, sesso e colore; dove il sesso può essere maschio o femmina e il colore può essere blu o arancione. Ma nota che questo è un caso speciale del problema multi-etichetta poiché ogni istanza otterrà ogni etichetta (cioè ogni granchio ha sia un sesso che un colore).
I problemi con più etichette includono anche altri casi che consentono di assegnare un numero variabile di etichette a ciascuna istanza. Ad esempio, un articolo in un servizio di giornali o di filo può essere assegnato alle categorie NOTIZIE, POLITICA, SPORT, MEDICINA, ecc. Una storia su un importante evento sportivo otterrebbe un incarico dell'etichetta SPORT; mentre un altro, che coinvolge tensioni politiche che vengono rivelate da un particolare evento sportivo, potrebbe ottenere sia le etichette SPORT che POLITICA. Dove sono, negli Stati Uniti, i risultati del Superbowl sono etichettati sia SPORT che NEWS, dato l'impatto sociale dell'evento.
Nota che questa forma di etichettatura, con un numero variabile di etichette, può essere rifusa in una forma simile all'esempio con i granchi; tranne per il fatto che ogni etichetta è trattata come LABEL-X o non-LABEL-X. Ma non tutti i metodi richiedono questa rifusione.
E un'altra differenza sta nel fatto che il problema multi-etichetta richiede che il modello apprenda la correlazione tra le diverse classi, ma nei problemi multiclasse le diverse classi sono indipendenti l'una dall'altra.