K
Per facilità di spiegazione e chiarezza avrei avviato il clustering.
In generale, è possibile utilizzare tali cluster ricampionati per misurare la stabilità della propria soluzione: non cambia quasi per niente o cambia completamente?
Anche se non hai alcuna verità di base, puoi ovviamente confrontare il clustering che risulta da diverse esecuzioni dello stesso metodo (ricampionamento) o i risultati di diversi algoritmi di clustering, ad esempio tabulando:
km1 <- kmeans (iris [, 1:4], 3)
km2 <- kmeans (iris [, 1:4], 3)
table (km1$cluster, km2$cluster)
# 1 2 3
# 1 96 0 0
# 2 0 0 33
# 3 0 21 0
poiché i cluster sono nominali, il loro ordine può cambiare arbitrariamente. Ciò significa che è consentito modificare l'ordine in modo che i cluster corrispondano. Quindi gli elementi diagonali * contano i casi assegnati allo stesso cluster e gli elementi fuori diagonale mostrano in che modo le assegnazioni sono cambiate:
table (km1$cluster, km2$cluster)[c (1, 3, 2), ]
# 1 2 3
# 1 96 0 0
# 3 0 21 0
# 2 0 0 33
Direi che il ricampionamento è buono per stabilire quanto sia stabile il clustering all'interno di ciascun metodo. Senza questo non ha molto senso confrontare i risultati con altri metodi.
io , io
Non stai mescolando la validazione incrociata di k-fold e il clustering di k-mean, vero?