Ma non so quale sia la differenza tra classificazione del testo e modelli di argomenti nei documenti
Text Classification
è una forma di apprendimento supervisionato, quindi l'insieme delle classi possibili è conosciuto / definito in anticipo e non cambierà.
Topic Modeling
è una forma di apprendimento senza supervisione (simile al raggruppamento), quindi l'insieme dei possibili argomenti è sconosciuto apriori . Sono definiti come parte della generazione dei modelli di argomenti. Con un algoritmo non deterministico come LDA, otterrai argomenti diversi ogni volta che esegui l'algoritmo.
Text classification
spesso coinvolge classi che si escludono a vicenda - pensa a queste come a secchi.
Ma non è necessario: dato il giusto tipo di dati di input etichettati, è possibile impostare una serie di classificatori binari non reciprocamente esclusivi.
Topic modeling
generalmente non si escludono a vicenda: lo stesso documento può avere una distribuzione della probabilità diffusa su molti argomenti. Inoltre, esistono anche metodi di modellazione gerarchica degli argomenti.
Inoltre, posso utilizzare il modello di argomento per i documenti per identificare un argomento in un secondo momento, posso utilizzare la classificazione per classificare il testo all'interno di questi documenti?
Se ti stai chiedendo se puoi prendere tutti i documenti assegnati a un argomento da un algoritmo di modellazione degli argomenti e quindi applicare un classificatore a quella raccolta, allora sì, puoi sicuramente farlo.
Non sono sicuro che abbia molto senso, però: come minimo, dovresti scegliere una soglia per la distribuzione della probabilità dell'argomento al di sopra della quale includerai i documenti nella tua raccolta (in genere 0,05-0,1).
Puoi approfondire il tuo caso d'uso?
A proposito, c'è un ottimo tutorial sulla modellazione di argomenti che utilizza la libreria MALLET per Java disponibile qui: Introduzione alla modellazione di argomenti e MALLET