Utilizzo del clustering nell'elaborazione del testo


11

Ciao, questa è la mia prima domanda nello stack di Data Science. Voglio creare un algoritmo per la classificazione del testo. Supponiamo che io abbia una grande serie di testi e articoli. Diciamo circa 5000 semplici testi. Per prima cosa uso una semplice funzione per determinare la frequenza di tutte e quattro le parole dei caratteri. Quindi lo uso come caratteristica di ciascun campione di allenamento. Ora voglio che il mio algoritmo sia in grado di raggruppare i set di addestramento in base alle loro caratteristiche, che qui è la frequenza di ogni parola nell'articolo. (Si noti che in questo esempio, ogni articolo avrebbe una sua caratteristica unica poiché ogni articolo ha una caratteristica diversa, ad esempio un articolo ha 10 "acqua e 23" puro "e un altro ha 8" politica "e 14" leva "). Puoi suggerire il miglior algoritmo di clustering per questo esempio?

Risposte:


5

Non so se hai mai letto SenseCluster di Ted Pedersen: http://senseclusters.sourceforge.net/ . Ottima carta per il clustering dei sensi.

Inoltre, quando analizzi le parole, pensa che "computer", "computer", "computer", ... rappresentano un concetto, quindi solo una caratteristica. Molto importante per un'analisi corretta.

Per parlare dell'algoritmo di clustering, è possibile utilizzare un cluster gerarchico . Ad ogni passo dell'algo, unisci i 2 testi più simili in base alle loro caratteristiche (usando una misura di dissomiglianza, ad esempio la distanza euclidea). Con quella misura di dissomiglianza, sei in grado di trovare il miglior numero di cluster e, quindi, il miglior raggruppamento per i tuoi testi e articoli.

In bocca al lupo :)


6

Se vuoi procedere sul tuo percorso esistente ti suggerisco di normalizzare la frequenza di ogni termine in base alla sua popolarità in tutto il corpus, così vengono promosse parole così rare e quindi predittive. Quindi utilizzare le proiezioni casuali per ridurre le dimensioni di questi vettori molto lunghi fino alle dimensioni in modo che l'algoritmo di clustering funzioni meglio (non si desidera raggruppare in spazi ad alta dimensione).

Ma ci sono altri modi di modellare gli argomenti. Leggi questo tutorial per saperne di più.



Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.