Differenza tra algoritmi k-medie standard e sferici

Vorrei capire qual è la principale differenza di implementazione tra algoritmi di clustering k-medie standard e sferici.

In ogni passaggio, k-mean calcola le distanze tra i vettori degli elementi e i centroidi del cluster e riassegna il documento a questo cluster, il cui centroide è il più vicino. Quindi, tutti i centroidi vengono ricalcolati.

Nei k-media sferici, tutti i vettori sono normalizzati e la misura della distanza è la diversità del coseno.

Tutto qui o c'è qualcos'altro?

— user1315305
fonte

La domanda è:

Qual è la differenza tra k-medie classiche e k-medie sferiche?

K classico significa:

Nei k-media classici, cerchiamo di ridurre al minimo una distanza euclidea tra il centro del cluster e i membri del cluster. L'intuizione alla base di ciò è che la distanza radiale dal centro del cluster alla posizione dell'elemento dovrebbe "avere identità" o "essere simile" per tutti gli elementi di quel cluster.

L'algoritmo è:

Imposta il numero di cluster (ovvero il conteggio dei cluster)
Inizializza assegnando casualmente punti nello spazio agli indici dei cluster
Ripeti fino a quando convergono
- Per ogni punto trova il cluster più vicino e assegna il punto al cluster
- Per ogni cluster, trova la media dei punti dei membri e la media del centro di aggiornamento
- L'errore è la norma della distanza dei cluster

K-sferica significa:

In k-medie sferiche, l'idea è quella di impostare il centro di ciascun cluster in modo tale da rendere sia uniforme che minimo l'angolo tra i componenti. L'intuizione è come guardare le stelle: i punti dovrebbero avere una spaziatura coerente tra loro. Questa spaziatura è più semplice da quantificare come "somiglianza del coseno", ma significa che non ci sono galassie "via lattea" che formano ampie strisce luminose nel cielo dei dati. (Sì, sto cercando di parlare con la nonna in questa parte della descrizione.)

Versione più tecnica:

Pensa ai vettori, alle cose che tracci come frecce con orientamento e lunghezza fissa. Può essere tradotto ovunque ed essere lo stesso vettore. arbitro

L'orientamento del punto nello spazio (il suo angolo rispetto a una linea di riferimento) può essere calcolato usando l'algebra lineare, in particolare il prodotto punto.

Se spostiamo tutti i dati in modo che la loro coda si trovi nello stesso punto, possiamo confrontare i "vettori" in base al loro angolo e raggruppare quelli simili in un singolo cluster.

Per chiarezza, le lunghezze dei vettori sono ridimensionate, in modo che siano più facili da confrontare "bulbo oculare".

Potresti pensarlo come una costellazione. Le stelle in un singolo cluster sono vicine l'una all'altra in un certo senso. Questi sono i miei occhi considerati costellazioni.

Il valore dell'approccio generale è che ci consente di escogitare vettori che altrimenti non hanno dimensione geometrica, come nel metodo tf-idf, in cui i vettori sono frequenze di parole nei documenti. Due "e" parole aggiunte non equivalgono a "il". Le parole sono non continue e non numeriche. Sono non fisici in senso geometrico, ma possiamo inventarli geometricamente e quindi usare metodi geometrici per gestirli. I k-media sferici possono essere usati per raggruppare in base alle parole.

[\begin{matrix} X 1 & y 1 & X 2 & y 2 & g r o u p \\ 0 & - 0.8 & - 0,2013 & - 0,7316 & B \\ - 0.8 & 0.1 & - 0,9524 & 0,3639 & UN \\ 0.2 & 0.3 & 0,2061 & - 0,1434 & C \\ 0.8 & 0.1 & 0,4787 & 0,153 & B \\ - 0.7 & 0.2 & - 0,7276 & 0,3825 & UN \\ 0.9 & 0.9 & 0,748 & 0,6793 & C \end{matrix}]

$\begin{bmatrix} x1&y1&x2&y2&group\\ 0&-0.8&-0.2013&-0.7316&B\\ -0.8&0.1&-0.9524&0.3639&A\\ 0.2&0.3&0.2061&-0.1434&C\\ 0.8&0.1&0.4787&0.153&B\\ -0.7&0.2&-0.7276&0.3825&A\\ 0.9&0.9&0.748&0.6793&C\\ \end{bmatrix}$

Alcuni punti:

Proiettano su una sfera unitaria per tenere conto delle differenze nella lunghezza del documento.

Lavoriamo attraverso un processo reale e vediamo quanto (male) è stato il mio "bulbo oculare".

La procedura è:

(implicito nel problema) collega le code dei vettori all'origine
progetto su sfera unitaria (per tenere conto delle differenze nella lunghezza del documento)
utilizzare il clustering per ridurre al minimo la " diversità del coseno "

J = \underset{io}{Σ} d (X_{io}, p_{c (io)})

$J = \sum_{i} d \left( x_{i},p_{c\left( i \right)} \right)$

d (X, p) = 1 - c o S (X, p) = \frac{⟨ X, p ⟩}{‖ X ‖ ‖ p ‖}

$d \left( x,p \right) = 1- cos \left(x,p\right) = \frac{\langle x,p \rangle}{\left \|x \right \|\left \|p \right \|}$

(altre modifiche in arrivo)

link:

— EngrStudent - Ripristina Monica
fonte

Nei file di testo, penso che la funzione "diff" che allinea i caratteri, o indica cambiamenti con i pesi, potrebbe essere utile la preelaborazione di testi "ravvicinati" al fine di migliorare il raggruppamento significativo

— EngrStudent - Ripristina Monica

Ottengo "Accesso vietato" al link n. 1 ( sci.utah.edu/~weiliu/research/clustering_fmri/… )

— David Doria,

@ David - anche io. Sempre in movimento è ... Internet? Un momento per favore.

— EngrStudent - Ripristina Monica il

Dopo qualche esitazione ho scelto di sottovalutare questa risposta al momento. Non è solo una spiegazione troppo "nonna", è imprecisa.

radial distance from the cluster-center to the element location should "have sameness" or "be similar" for all elements of that cluster

sembra semplicemente errato o schietto. In both uniform and minimal the angle between components"componenti" non è definito. Spero che tu possa migliorare la risposta potenzialmente eccezionale se lo fai un po 'più rigoroso ed esteso.

— ttnphns,