Ho un problema nel raggruppare una grande quantità di frasi in gruppi in base al loro significato. Questo è simile a un problema quando hai molte frasi e vuoi raggrupparle in base al loro significato.
Quali algoritmi sono suggeriti per fare questo? Non conosco il numero di cluster in anticipo (e poiché anche i dati in arrivo possono cambiare anche i cluster), quali funzionalità vengono normalmente utilizzate per rappresentare ogni frase?
Sto provando ora le funzionalità più semplici con solo un elenco di parole e la distanza tra le frasi definite come:
(A e B sono insiemi di parole corrispondenti nella frase A e B)
Ha assolutamente senso?
Sto cercando di applicare l' algoritmo Mean-Shift dalla libreria scikit a questa distanza, poiché non richiede il numero di cluster in anticipo.
Se qualcuno consiglierà metodi / approcci migliori per il problema, sarà molto apprezzato dato che sono ancora nuovo sull'argomento.