Per raggruppare i documenti (di testo) è necessario un modo per misurare la somiglianza tra coppie di documenti.
Due alternative sono:
Confronta i documenti come vettori di termini usando Cosine Somiglianza - e TF / IDF come coefficienti correttori per i termini.
Confronta ogni distribuzione di probabilità dei documenti usando la divergenza f, ad esempio la divergenza di Kullback-Leibler
Esiste un motivo intuitivo per preferire un metodo all'altro (presupponendo dimensioni medie del documento di 100 termini)?