Quali algoritmi di classificazione provare per classificare i dati di testo in 300 categorie


8

Ho 40000 righe di dati testuali del dominio sanitario. I dati hanno una colonna per il testo (2-5 frasi) e una colonna per la sua categoria. Voglio classificarlo in 300 categorie. Alcune categorie sono indipendenti mentre altre sono in qualche modo correlate. La distribuzione dei dati tra le categorie non è uniforme, ovvero alcune delle categorie (circa 40 di esse) hanno meno dati di circa 2-3 righe.

Vi allego la probabilità di registro di ogni classe / categoria. (OR distribuzione delle classi) qui. Logaritmo di probabilità precedente della classe (distribuzione dei dati della classe di registro)


2
Hai bisogno di maggiori informazioni. Qual è la relazione tra le categorie? Le categorie si escludono a vicenda? C'è una sovrapposizione categorica?
Ryan J. Smith,

3
Benvenuto in Data Science! Attualmente la tua domanda è di qualità molto bassa. Non puoi aspettarti risposte di qualità senza fare domande ben descritte. Fornisci maggiori informazioni (migliore descrizione dei dati, del tuo background, linguaggi di programmazione, approcci ricercati, ecc.).
Wojciech Walczak,

Risposte:


8

In generale, un buon punto di partenza per problemi come questi è la classificazione Naive Bayes (NB) che utilizza un semplice modello di bag of words. Ecco alcune diapositive che descrivono NB come applicato all'elaborazione del linguaggio naturale . Non c'è niente di particolarmente interessante in questo approccio, ma è abbastanza facile da implementare e ti darà un punto di partenza da cui espandersi.

Dopo aver trovato alcuni risultati iniziali che presuppongono l'indipendenza tra le funzionalità e le etichette di output, probabilmente avrai una migliore idea di dove il modello è debole. Da quel momento in poi è possibile applicare alcune funzionalità ingegneristiche (forse TF-IDF ) nonché alcune elaborazioni post-elaborazione per gestire campioni che vengono assegnati a categorie correlate.


1
Apprezzo la tua risposta e i riferimenti qui, anche se la domanda è vaga. È davvero utile per me e probabilmente molte più persone che si stanno solo bagnando i piedi. Grazie! :)
Brian Topping

Grazie, ho iniziato a lavorare con bayes ingenui e ingegneria delle funzioni in generale. Altre cose a parte ingenui bayes che dovrei provare?
Alok Nayak,

Bene, non hai ancora offerto molti dettagli sui dati stessi o sulle specifiche di ciò che hai fatto, quindi è molto difficile darti suggerimenti specifici. La cosa migliore che posso dire è considerare l'integrazione di una struttura sequenziale nel tuo modello e delle sue funzionalità tramite l'uso di bigrams o modelli markov / macchine a stati finiti.
Ryan J. Smith,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.