Se ho un determinato set di dati, quanto sarebbe intelligente inizializzare i centri di cluster usando i campioni casuali di quel set di dati?
Ad esempio, supponiamo che io voglia 5 clusters
. Prendo 5 random samples
di dire, size=20%
del dataset originale. Potrei quindi prendere la media di ciascuno di questi 5 campioni casuali e usare quei mezzi come i miei 5 centri di cluster iniziali? Non so dove ho letto questo, ma volevo sapere cosa ne pensate dell'idea.
AGGIORNAMENTO: Vedi questa discussione Inizializzazione del clustering dei mezzi K: quali sono i metodi esistenti? per la discussione generale sui vari metodi di inizializzazione.