La risposta di Sergey contiene il punto critico, ovvero che il coefficiente di silhouette quantifica la qualità del clustering raggiunto, quindi è necessario selezionare il numero di cluster che massimizza il coefficiente di silhouette.
La lunga risposta è che il modo migliore per valutare i risultati delle attività di clustering è iniziare esaminando effettivamente - ispezione umana - i cluster formati e facendo una determinazione basata sulla comprensione di ciò che i dati rappresentano, ciò che rappresenta un cluster, e ciò che il clustering è destinato a raggiungere.
Esistono numerosi metodi quantitativi per valutare i risultati del clustering che dovrebbero essere utilizzati come strumenti, con piena comprensione dei limiti. Tendono ad essere abbastanza intuitivi in natura e quindi hanno un fascino naturale (come i problemi di raggruppamento in generale).
Esempi: massa / raggio / densità del cluster, coesione o separazione tra cluster, ecc. Questi concetti sono spesso combinati, ad esempio il rapporto tra separazione e coesione dovrebbe essere elevato se il clustering ha avuto successo.
Il modo in cui viene misurato il clustering è informato dal tipo di algoritmi di clustering utilizzati. Ad esempio, la misurazione della qualità di un algoritmo di clustering completo (in cui tutti i punti sono inseriti in cluster) può essere molto diversa dalla misurazione della qualità di un algoritmo di cluster fuzzy basato su soglia (in cui alcuni punti potrebbero essere lasciati non cluster come 'rumore' ).
Il coefficiente di silhouette è una di queste misure. Funziona come segue:
Per ogni punto p, trova prima la distanza media tra p e tutti gli altri punti nello stesso cluster (questa è una misura di coesione, chiamala A). Quindi trova la distanza media tra p e tutti i punti nel cluster più vicino (questa è una misura di separazione dall'altro cluster più vicino, chiamalo B). Il coefficiente di sagoma per p è definito come la differenza tra B e A diviso per il maggiore dei due (max (A, B)).
Valutiamo il coefficiente di cluster di ciascun punto e da questo possiamo ottenere il coefficiente di cluster medio "complessivo".
Intuitivamente, stiamo cercando di misurare lo spazio tra i cluster. Se la coesione del cluster è buona (A è piccola) e la separazione del cluster è buona (B è grande), il numeratore sarà grande, ecc.
Ho costruito un esempio qui per dimostrarlo graficamente.
In questi grafici gli stessi dati vengono tracciati cinque volte; i colori indicano i cluster creati dal cluster k-mean, con k = 1,2,3,4,5. Cioè, ho costretto un algoritmo di clustering a dividere i dati in 2 cluster, quindi 3 e così via, e colorato il grafico di conseguenza.
La trama della silhouette mostra che il coefficiente di silhouette era più alto quando k = 3, suggerendo che è il numero ottimale di cluster. In questo esempio siamo fortunati ad essere in grado di visualizzare i dati e potremmo concordare sul fatto che tre cluster catturano meglio la segmentazione di questo set di dati.
Se non fossimo in grado di visualizzare i dati, forse a causa della maggiore dimensionalità, una trama silhouette ci darebbe comunque un suggerimento. Tuttavia, spero che la mia risposta un po 'prolissa abbia anche messo in evidenza che questo "suggerimento" potrebbe essere molto insufficiente o semplicemente sbagliato in alcuni scenari.