Utilizzo del clustering nell'elaborazione del testo

11

Ciao, questa è la mia prima domanda nello stack di Data Science. Voglio creare un algoritmo per la classificazione del testo. Supponiamo che io abbia una grande serie di testi e articoli. Diciamo circa 5000 semplici testi. Per prima cosa uso una semplice funzione per determinare la frequenza di tutte e quattro le parole dei caratteri. Quindi lo uso come caratteristica di ciascun campione di allenamento. Ora voglio che il mio algoritmo sia in grado di raggruppare i set di addestramento in base alle loro caratteristiche, che qui è la frequenza di ogni parola nell'articolo. (Si noti che in questo esempio, ogni articolo avrebbe una sua caratteristica unica poiché ogni articolo ha una caratteristica diversa, ad esempio un articolo ha 10 "acqua e 23" puro "e un altro ha 8" politica "e 14" leva "). Puoi suggerire il miglior algoritmo di clustering per questo esempio?

text-mining clustering

— Rashid
fonte

5

Non so se hai mai letto SenseCluster di Ted Pedersen: http://senseclusters.sourceforge.net/ . Ottima carta per il clustering dei sensi.

Inoltre, quando analizzi le parole, pensa che "computer", "computer", "computer", ... rappresentano un concetto, quindi solo una caratteristica. Molto importante per un'analisi corretta.

Per parlare dell'algoritmo di clustering, è possibile utilizzare un cluster gerarchico . Ad ogni passo dell'algo, unisci i 2 testi più simili in base alle loro caratteristiche (usando una misura di dissomiglianza, ad esempio la distanza euclidea). Con quella misura di dissomiglianza, sei in grado di trovare il miglior numero di cluster e, quindi, il miglior raggruppamento per i tuoi testi e articoli.

In bocca al lupo :)

— JC R
fonte

6

Se vuoi procedere sul tuo percorso esistente ti suggerisco di normalizzare la frequenza di ogni termine in base alla sua popolarità in tutto il corpus, così vengono promosse parole così rare e quindi predittive. Quindi utilizzare le proiezioni casuali per ridurre le dimensioni di questi vettori molto lunghi fino alle dimensioni in modo che l'algoritmo di clustering funzioni meglio (non si desidera raggruppare in spazi ad alta dimensione).

Ma ci sono altri modi di modellare gli argomenti. Leggi questo tutorial per saperne di più.

— Emre
fonte

2

Non posso dire che sia il migliore, ma l'analisi semantica latente potrebbe essere un'opzione. Fondamentalmente si basa sulla ricorrenza, è necessario prima ponderarlo.

http://en.wikipedia.org/wiki/Latent_semantic_analysis

http://lsa.colorado.edu/papers/dp1.LSAintro.pdf

Il problema è che LSA non ha un supporto statistico fermo.

Divertiti

— Chen Guo
fonte

0

Un modo per classificare il testo è calcolando la frequenza dei termini e la frequenza inversa dei documenti. È possibile fare riferimento a questo documento: http://www.oracle.com/technetwork/testcontent/feature-preparation-130942.pdf

— Rajan Kumar Kharel
fonte