Ecco un esempio, se lo facessi in mplus, che potrebbe essere utile e complimentarmi con risposte più complete:
Supponiamo che io abbia 3 variabili continue e che voglia identificare i cluster in base a questi. Vorrei specificare un modello di miscela (più specificamente in questo caso, un modello di profilo latente), assumendo l'indipendenza condizionale (le variabili osservate sono indipendenti, data l'appartenenza al cluster) come:
Model:
%Overall%
v1* v2* v3*; ! Freely estimated variances
[v1 v2 v3]; ! Freely estimated means
Avrei eseguito questo modello più volte, specificando ogni volta un diverso numero di cluster e scegliendo la soluzione che mi piace di più (fare questo è un vasto argomento da solo).
Per eseguire k-mean, specifica il seguente modello:
Model:
%Overall%
v1@0 v2@0 v3@0; ! Variances constrained as zero
[v1 v2 v3]; ! Freely estimated means
Quindi l'appartenenza alla classe si basa solo sulla distanza dalla media delle variabili osservate. Come affermato in altre risposte, le variazioni non hanno nulla a che fare con esso.
La cosa bella di fare questo in mplus è che si tratta di modelli nidificati, e quindi puoi testare direttamente se i vincoli si traducono in un adattamento peggiore o meno, oltre a poter confrontare la discordanza nella classificazione tra i due metodi. Entrambi questi modelli, a proposito, possono essere stimati usando un algoritmo EM, quindi la differenza è davvero di più sul modello.
Se pensi nello spazio 3-D, il 3 significa creare un punto ... e le variazioni dei tre assi di un ellissoide che attraversano quel punto. Se tutte e tre le varianze sono uguali, otterrai una sfera.