Qual è la differenza tra Multiclass e Multilabel Problem


52

Qual è la differenza tra un problema multiclasse e un problema multilabel?


Entrambe le attività possono essere eseguite con il pacchetto software Vowpal Wabbit (riga di comando, collegamenti python disponibili).
Vladislavs Dovgalecs,

Ho imparato questo concetto e costruito la mia comprensione con questo post , hanno spiegato la classificazione multi-etichetta in un modo molto elegante.
user235077

Risposte:


45

Sospetto che la differenza sia che nei problemi multi-classe le classi si escludono a vicenda, mentre per problemi multi-etichetta ogni etichetta rappresenta un compito di classificazione diverso, ma i compiti sono in qualche modo correlati (quindi c'è un vantaggio nel affrontarli insieme piuttosto che separatamente ). Ad esempio, nel famoso set di dati di granchi leptograspus ci sono esempi di maschi e femmine di due forme cromatiche di granchio. Potresti affrontarlo come un problema multi-classe con quattro classi (maschio-blu, femmina-blu, maschio-arancio, femmina-arancio) o come problema multi-etichetta, in cui un'etichetta sarebbe maschio / femmina e l'altra blu /arancia. Essenzialmente in problemi con più etichette un modello può appartenere a più di una classe.


@Dirkran Grazie per la tua spiegazione. Conosci qualche altra fonte in cui posso ottenere un set di dati multilabel diverso da csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/multilabel.html e mulan.sourceforge.net/datasets.html
Learner

@Learner mi dispiace non è qualcosa su cui ho lavorato molto. Potresti dare un'occhiata all'apprendimento multi-task, che ha alcune somiglianze con l'apprendimento multi-label. Forse alcuni dei set di dati utilizzati potrebbero essere utili anche come benchmark per l'apprendimento multi-etichetta.
Dikran Marsupial,

26

Classificazione multiclasse indica un'attività di classificazione con più di due classi; ad esempio, classificare una serie di immagini di frutti che possono essere arance, mele o pere. La classificazione multiclasse presuppone che ogni campione sia assegnato a una e una sola etichetta: un frutto può essere una mela o una pera ma non entrambi allo stesso tempo.

La classificazione multilivello assegna a ciascun campione un set di etichette target. Questo può essere considerato come una previsione delle proprietà di un punto dati che non si escludono a vicenda, ad esempio argomenti rilevanti per un documento. Un testo potrebbe riguardare qualsiasi religione, politica, finanza o istruzione contemporaneamente o nessuna di queste.

Tratto da http://scikit-learn.org/stable/modules/multiclass.html


18

A complemento delle altre risposte, ecco alcune cifre. Una riga = output previsto per un campione.

multiclasse

Una colonna = una classe (codifica one-hot)

inserisci qui la descrizione dell'immagine

Multilabel

Una colonna = una classe

inserisci qui la descrizione dell'immagine


Vedi che:

  • nel caso multilabel, a un campione potrebbe essere assegnata più di una classe.
  • nel caso multiclasse, ci sono più di 2 classi in totale.

Come nota a margine, nulla ti impedisce di avere un problema di classificazione multioutput-multiclass , ad esempio:

inserisci qui la descrizione dell'immagine


7

Un problema multi-classe ha l'assegnazione di istanze a una raccolta di classi finita, che si escludono a vicenda. Come nell'esempio già dato dei granchi (da @Dikran): maschio-blu, femmina-blu, maschio-arancio, femmina-arancio. Ognuno di questi è esclusivo degli altri e nel loro insieme sono completi.

Una forma di problema con più etichette è dividerle in due etichette, sesso e colore; dove il sesso può essere maschio o femmina e il colore può essere blu o arancione. Ma nota che questo è un caso speciale del problema multi-etichetta poiché ogni istanza otterrà ogni etichetta (cioè ogni granchio ha sia un sesso che un colore).

I problemi con più etichette includono anche altri casi che consentono di assegnare un numero variabile di etichette a ciascuna istanza. Ad esempio, un articolo in un servizio di giornali o di filo può essere assegnato alle categorie NOTIZIE, POLITICA, SPORT, MEDICINA, ecc. Una storia su un importante evento sportivo otterrebbe un incarico dell'etichetta SPORT; mentre un altro, che coinvolge tensioni politiche che vengono rivelate da un particolare evento sportivo, potrebbe ottenere sia le etichette SPORT che POLITICA. Dove sono, negli Stati Uniti, i risultati del Superbowl sono etichettati sia SPORT che NEWS, dato l'impatto sociale dell'evento.

Nota che questa forma di etichettatura, con un numero variabile di etichette, può essere rifusa in una forma simile all'esempio con i granchi; tranne per il fatto che ogni etichetta è trattata come LABEL-X o non-LABEL-X. Ma non tutti i metodi richiedono questa rifusione.


2

E un'altra differenza sta nel fatto che il problema multi-etichetta richiede che il modello apprenda la correlazione tra le diverse classi, ma nei problemi multiclasse le diverse classi sono indipendenti l'una dall'altra.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.