GMM usa colline sovrapposte che si estendono all'infinito (ma praticamente contano solo per 3 sigma). Ogni punto ottiene tutti i punteggi di probabilità delle colline. Inoltre, le colline sono "a forma di uovo" [ok, sono ellissi simmetriche ] e, usando la matrice di covarianza completa, possono essere inclinate .
K significa che assegna un punto a un singolo cluster, quindi i punteggi degli altri centri del cluster vengono ignorati (vengono implicitamente azzerati / non importa). Le colline sono bolle di sapone sferiche. Quando due bolle di sapone si toccano, il confine tra loro diventa un piano (iper) piano. Proprio come quando si soffia una schiuma di molte bolle di sapone, le bolle all'interno non sono piatte ma sono squadrate, così i confini tra molte (iper) sfere in realtà formano una partizione Voronoi dello spazio. In 2D, questo tende ad apparire vagamente come un impacchettato esagonale, pensa a un alveare (anche se ovviamente le cellule Voronoi non sono garantite come esagoni). Una collina K significa che è rotonda e non si inclina, quindi ha meno potere di rappresentazione; ma è molto più veloce da calcolare, specialmente nelle dimensioni più elevate.
Poiché K-mean utilizza la metrica della distanza euclidea, presuppone che le dimensioni siano comparabili e di uguale peso. Quindi, se la dimensione X ha unità di miglia orarie, che variano da 0 a 80, e la dimensione Y ha unità di libbre, che variano da 0 a 400 e si stanno adattando cerchi in questo spazio XY, quindi una dimensione (e la sua diffusione) sarà più potente dell'altra dimensione e oscurerà i risultati. Questo è il motivo per cui è consuetudine normalizzare i dati quando si assumono K-medie.
Sia GMM che K-sign modellano i dati adattando le migliori approssimazioni a ciò che viene dato. GMM si adatta a uova inclinate e K-significa per sfere non inclinate. Ma i dati sottostanti potrebbero essere modellati come qualsiasi cosa, potrebbe essere una spirale o un dipinto di Picasso, e ogni algoritmo sarebbe ancora in esecuzione, e prenderebbe il suo colpo migliore. Il fatto che il modello risultante assomigli ai dati effettivi dipende dal processo fisico sottostante che genera i dati. (Ad esempio, le misurazioni del ritardo sono unilaterali; un gaussiano è adatto? Forse.)
Tuttavia, sia GMM che K-significano implicitamente assi / domini di dati provenienti dal campo dei numeri reali Rn. Ciò è importante in base al tipo di asse / dominio di dati che si sta tentando di raggruppare. I conteggi interi ordinati vengono mappati correttamente sui reali. Simboli ordinati, come i colori in uno spettro, non così bene. Simboli binari, ehn. I simboli non ordinati non si associano affatto ai reali (a meno che non si utilizzi una nuova matematica creativa dal 2000).
Pertanto, l'immagine binaria 8x8 verrà interpretata come un ipercubo a 64 dimensioni nel primo hyperquadrant. Gli algoritmi quindi usano analogie geometriche per trovare i cluster. La distanza, con i mezzi K, si presenta come distanza euclidea nello spazio 64-dimensionale. È un modo per farlo.