Supponiamo di avere un insieme di elementi E ed una somiglianza ( non la distanza ) funzione sim (ei, ej) tra due elementi ei, ej ∈ E .
Come potremmo (efficientemente) raggruppare gli elementi di E , usando sim ?
k -means, ad esempio, richiede un dato k , Canopy Clustering richiede due valori di soglia. E se non volessimo tali parametri predefiniti?
Nota che quella sim non è necessariamente una metrica (cioè la disuguaglianza del triangolo può o non può essere valida). Inoltre, non importa se i cluster sono disgiunti (partizioni di E ).
1-sim(ei, ej) = Distance
. Con la metrica della distanza è possibile applicare ad esempio il clustering gerarchico. Scendendo dalla radice vedrai a quale livello di cluster di granularità avrebbe senso il tuo problema particolare.