Ciao, questa è la mia prima domanda nello stack di Data Science. Voglio creare un algoritmo per la classificazione del testo. Supponiamo che io abbia una grande serie di testi e articoli. Diciamo circa 5000 semplici testi. Per prima cosa uso una semplice funzione per determinare la frequenza di tutte e quattro le parole dei caratteri. Quindi lo uso come caratteristica di ciascun campione di allenamento. Ora voglio che il mio algoritmo sia in grado di raggruppare i set di addestramento in base alle loro caratteristiche, che qui è la frequenza di ogni parola nell'articolo. (Si noti che in questo esempio, ogni articolo avrebbe una sua caratteristica unica poiché ogni articolo ha una caratteristica diversa, ad esempio un articolo ha 10 "acqua e 23" puro "e un altro ha 8" politica "e 14" leva "). Puoi suggerire il miglior algoritmo di clustering per questo esempio?