Ho un algoritmo di clustering (non k-medie) con il parametro di input (numero di cluster). Dopo aver eseguito il clustering, vorrei ottenere una misura quantitativa della qualità di questo clustering. L'algoritmo di clustering ha una proprietà importante. Per se invio punti dati senza alcuna distinzione significativa tra loro a questo algoritmo, di conseguenza otterrò un cluster contenente punti dati e un cluster con punto dati. Ovviamente questo non è quello che voglio. Quindi voglio calcolare questa misura di qualità per stimare la ragionevolezza di questo raggruppamento. Idealmente, sarò in grado di confrontare queste misure per diversi . Quindi eseguirò il clustering nell'intervallo die scegli quello con la migliore qualità. Come calcolo tale misura di qualità?
AGGIORNARE:
Ecco un esempio quando è un cluster non valido. Diciamo che ci sono 3 punti su un piano che forma un triangolo equilatero. Dividere questi punti in 2 cluster è ovviamente peggio che dividerli in 1 o 3 cluster.