k-significa vs k-mediana?


14

So che esiste un algoritmo di clustering di k-medie e k-mediana. Uno che utilizza la media come centro del cluster e l'altro utilizza la mediana. La mia domanda è: quando / dove usare quale?


Dovrai definire le mediane (e forse calcolarle) se hai più di una dimensione; se si prende semplicemente la mediana in ciascun valore, si perdono le proprietà di rotazione. Un'ulteriore possibilità è k -medoids
Henry

Risposte:


14

k-mean minimizza la varianza all'interno del cluster, che equivale a distanze euclidee quadrate.

In generale, la media aritmetica fa questo. Lo fa non distanze ottimizzare, ma deviazioni al quadrato dalla media.

k-medians minimizza le deviazioni assolute, che equivale alla distanza di Manhattan.

In generale, la mediana per asse dovrebbe fare questo. È un buon stimatore per la media, se si desidera ridurre al minimo la somma delle deviazioni assolute (ovvero sum_i abs (x_i-y_i)), anziché quelle quadrate.

Non è una domanda sull'accuratezza. È una questione di correttezza. ;-)

Quindi ecco il tuo albero decisionale:

  • Se la distanza è quadrata di distanza euclidea , usa k-medie
  • Se la distanza è metrica Taxicab , utilizzare k-median
  • Se hai un'altra distanza , usa k-medoids

Alcune eccezioni: per quanto ne so, massimizzare la somiglianza del coseno è correlato alla minimizzazione della distanza euclidea quadrata su dati normalizzati L2. Quindi se i tuoi dati sono L2 normalizzati; e tu normalizzi i tuoi mezzi ogni iterazione, quindi puoi usare di nuovo k-medie.


In qualche modo metto in dubbio l'affermazione secondo cui la mediana minimizza la distanza di Manhattan, poiché non esiste un concetto unico concordato sul concetto di mediana per i dati multidimensionali. Non è falso, ma trovo che sia un'affermazione fuorviante da fare in un contesto multidimensionale. Esistono molteplici generalizzazioni multidimensionali di mediane, molte delle quali non hanno alcun legame con la minimizzazione delle distanze di Manhattan.
Tim Seguine,

1
Lo cambio in mediana per asse. Spero che tu sia più felice ora.
Ha QUIT - Anony-Mousse il

2

Se vuoi fare un'analisi non riguardo al possibile effetto di valori estremi usa k significa ma se vuoi essere più preciso usa k mediana


5
Puoi supportare e / o spiegare queste affermazioni in qualche modo?
jona,

Sì, puoi approfondire di più, per favore? con esempi?
Jack Twain,

2
Penso che sia perché "Median" può tollerare gli outlier ma "Mean" ne è totalmente influenzato. Ad esempio: se abbiamo i punti dati {1,2,3,5,78} è ovvio che 78 è anomalo. La mediana di questi dati è 3 e la media è 17,8. Quindi la mediana è il modo migliore per riassumere questi dati.
Fadwa
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.