qual è la differenza tra classificazione del testo e modelli di argomenti?


20

Conosco la differenza tra clustering e classificazione nell'apprendimento automatico, ma non capisco la differenza tra la classificazione del testo e la modellazione degli argomenti per i documenti. Posso utilizzare la modellazione degli argomenti sui documenti per identificare un argomento? Posso utilizzare i metodi di classificazione per classificare il testo all'interno di questi documenti?

Risposte:


28

Classificazione del testo

Ti do un mucchio di documenti, ognuno dei quali ha un'etichetta allegata. Ti chiedo di capire perché ritieni che al contenuto dei documenti siano state assegnate queste etichette in base alle loro parole. Poi ti do nuovi documenti e chiedo quale pensi che dovrebbe essere l'etichetta per ognuno. Le etichette hanno un significato per me, non per te necessariamente.

Modellazione di argomenti

Ti do un mucchio di documenti, senza etichette. Vi chiedo di spiegare perché i documenti hanno le parole che fanno identificando alcuni argomenti di cui ciascuno "tratta". Tu mi dici gli argomenti, dicendomi quanto di ciascuno di essi è presente in ciascun documento e decido che cosa "significano" gli argomenti.

Dovresti chiarire che cosa mi "identificando un argomento" o "classificare il testo".


10

Ma non so quale sia la differenza tra classificazione del testo e modelli di argomenti nei documenti

Text Classificationè una forma di apprendimento supervisionato, quindi l'insieme delle classi possibili è conosciuto / definito in anticipo e non cambierà.

Topic Modelingè una forma di apprendimento senza supervisione (simile al raggruppamento), quindi l'insieme dei possibili argomenti è sconosciuto apriori . Sono definiti come parte della generazione dei modelli di argomenti. Con un algoritmo non deterministico come LDA, otterrai argomenti diversi ogni volta che esegui l'algoritmo.

Text classificationspesso coinvolge classi che si escludono a vicenda - pensa a queste come a secchi.
Ma non è necessario: dato il giusto tipo di dati di input etichettati, è possibile impostare una serie di classificatori binari non reciprocamente esclusivi.

Topic modelinggeneralmente non si escludono a vicenda: lo stesso documento può avere una distribuzione della probabilità diffusa su molti argomenti. Inoltre, esistono anche metodi di modellazione gerarchica degli argomenti.

Inoltre, posso utilizzare il modello di argomento per i documenti per identificare un argomento in un secondo momento, posso utilizzare la classificazione per classificare il testo all'interno di questi documenti?

Se ti stai chiedendo se puoi prendere tutti i documenti assegnati a un argomento da un algoritmo di modellazione degli argomenti e quindi applicare un classificatore a quella raccolta, allora sì, puoi sicuramente farlo.

Non sono sicuro che abbia molto senso, però: come minimo, dovresti scegliere una soglia per la distribuzione della probabilità dell'argomento al di sopra della quale includerai i documenti nella tua raccolta (in genere 0,05-0,1).

Puoi approfondire il tuo caso d'uso?

A proposito, c'è un ottimo tutorial sulla modellazione di argomenti che utilizza la libreria MALLET per Java disponibile qui: Introduzione alla modellazione di argomenti e MALLET


4

I modelli di argomento sono generalmente senza supervisione . Esistono anche "modelli tematici supervisionati"; ma anche allora cercano di modellare argomenti all'interno di una classe .

Ad esempio, potresti avere un "calcio" di classe, ma potrebbero esserci argomenti all'interno di questa classe che riguardano partite o squadre particolari.

La sfida con gli argomenti è che cambiano nel tempo; considera l'esempio delle partite sopra. Tali argomenti possono emergere e scomparire di nuovo.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.