Ho 40000 righe di dati testuali del dominio sanitario. I dati hanno una colonna per il testo (2-5 frasi) e una colonna per la sua categoria. Voglio classificarlo in 300 categorie. Alcune categorie sono indipendenti mentre altre sono in qualche modo correlate. La distribuzione dei dati tra le categorie non è uniforme, ovvero alcune delle categorie (circa 40 di esse) hanno meno dati di circa 2-3 righe.
Vi allego la probabilità di registro di ogni classe / categoria. (OR distribuzione delle classi) qui.