So che esiste un algoritmo di clustering di k-medie e k-mediana. Uno che utilizza la media come centro del cluster e l'altro utilizza la mediana. La mia domanda è: quando / dove usare quale?
So che esiste un algoritmo di clustering di k-medie e k-mediana. Uno che utilizza la media come centro del cluster e l'altro utilizza la mediana. La mia domanda è: quando / dove usare quale?
Risposte:
k-mean minimizza la varianza all'interno del cluster, che equivale a distanze euclidee quadrate.
In generale, la media aritmetica fa questo. Lo fa non distanze ottimizzare, ma deviazioni al quadrato dalla media.
k-medians minimizza le deviazioni assolute, che equivale alla distanza di Manhattan.
In generale, la mediana per asse dovrebbe fare questo. È un buon stimatore per la media, se si desidera ridurre al minimo la somma delle deviazioni assolute (ovvero sum_i abs (x_i-y_i)), anziché quelle quadrate.
Non è una domanda sull'accuratezza. È una questione di correttezza. ;-)
Quindi ecco il tuo albero decisionale:
Alcune eccezioni: per quanto ne so, massimizzare la somiglianza del coseno è correlato alla minimizzazione della distanza euclidea quadrata su dati normalizzati L2. Quindi se i tuoi dati sono L2 normalizzati; e tu normalizzi i tuoi mezzi ogni iterazione, quindi puoi usare di nuovo k-medie.
Se vuoi fare un'analisi non riguardo al possibile effetto di valori estremi usa k significa ma se vuoi essere più preciso usa k mediana