Ho un corpus di testo con argomenti corrispondenti. Ad esempio "A rapper Tupac was shot in LA"
ed è stato etichettato come ["celebrity", "murder"]
. Quindi praticamente ogni vettore di caratteristiche può avere molte etichette (non la stessa quantità. Il primo vettore di caratteristiche può avere 3 etichette, seconda 1, terza 5).
Se avessi una sola etichetta corrispondente a ciascun testo, proverei un classificatore Naive Bayes , ma non so davvero come procedere se posso avere molte etichette.
Esiste un modo per trasformare Naive Bayes in un problema di classificazione multi etichetta (se esiste un approccio migliore, per favore fatemi sapere)?
PS alcune cose sui dati che ho.
- circa 10.000 elementi nel set di dati
- il testo è di circa 2-3 frasi
- massimo 7 etichette per testo