In che modo trovare il centroide è diverso dal trovare la media?


26

Quando si esegue il clustering gerarchico, è possibile utilizzare molte metriche per misurare la distanza tra i cluster. Due di queste metriche implicano il calcolo dei centroidi e la media dei punti dati nei cluster.

Qual è la differenza tra la media e il centroide? Questi non sono lo stesso punto nel cluster?

Risposte:


38

Per quanto ne so, la "media" di un cluster e il centroide di un singolo cluster sono la stessa cosa, sebbene il termine "centroide" potrebbe essere un po 'più preciso di "media" quando si tratta di dati multivariati.

Per trovare il centroide, si calcola la media (aritmetica) delle posizioni dei punti separatamente per ogni dimensione. Ad esempio, se hai avuto punti in:

  • (-1, 10, 3),
  • (0, 5, 2) e
  • (1, 20, 10),

quindi il centroide sarebbe situato in ((-1 + 0 + 1) / 3, (10 + 5 + 20) / 3, (3 + 2 + 10) / 3), il che semplifica (0, 11 2/3, 5). (NB: il centroide non deve essere - e raramente è --- uno dei punti dati originali)

Il centroide è talvolta chiamato anche centro di massa o baricentro, in base alla sua interpretazione fisica (è il centro di massa di un oggetto definito dai punti). Come la media, la posizione del centroide riduce al minimo la distanza del quadrato dagli altri punti.

Un'idea correlata è il medoide , che è il punto dati "meno dissimile" da tutti gli altri punti dati. A differenza del centroide, il medoide deve essere uno dei punti originali. Potresti anche essere interessato alla mediana geometrica che è analoga alla mediana, ma per i dati multivariati. Entrambi sono diversi dal centroide.

Tuttavia, come sottolinea Gabe nella sua risposta , c'è una differenza tra la "distanza centroide" e la "distanza media" quando si confrontano i cluster. La distanza del centroide tra il cluster e è semplicemente la distanza tra e . La distanza media viene calcolata trovando la distanza media a coppie tra i punti in ciascun cluster. In altre parole, per ogni punto nel cluster , si calcola , , ...ABbaricentro(UN)baricentro(B)un'ioUNdist(un'io,B1)dist(un'io,B2)dist(un'io,Bn) e mediali tutti insieme.


In quali condizioni il centroide e il medoide sono identici? E anche perché il centroide è un buon rappresentante di una serie di punti?
raikumardipak,

@dkr, potresti voler porre questa come una nuova domanda per ottenere risposte più (e più approfondite). Detto questo, la differenza si riduce a due cose: 1) la cosa da minimizzare (distanza quadrata / norma L2 per il centroide, distanza assoluta / norma L1 per medio) e 2) Se l'uscita può essere qualsiasi punto (centroide) o deve essere nel set di dati (medio). Puoi immaginare casi in cui saranno uguali, ma in generale no. Il centroide è "buono" per le stesse ragioni per cui la media è (la più piccola distanza al quadrato tra i punti) e presenta anche svantaggi simili (ad esempio, non robusto rispetto ai valori anomali).
Matt Krause,

4

La risposta sopra potrebbe non essere corretta vedi questo video: https://www.youtube.com/watch?v=VMyXc3SiEqs Sembra che la media sommi tutte le combinazioni di distanze tra gli elementi del cluster 1 e del cluster 2 - ovvero n ^ 2 distanze sommate insieme e quindi divide per n ^ 2 la media.

Il metodo centroide calcola innanzitutto la media di ciascun cluster all'interno di se stesso. Quindi calcola una distanza tra quei punti medi.


1
Ciao Gabe! Penso che stai parlando di questa parte del video? Per quanto ne so, il centroide e la media di un singolo cluster sono la stessa cosa ma, come hai sottolineato, la distanza del centroide e la distanza media tra due cluster sono misure diverse. Pensavo che l'OP chiedesse del primo, ma ho anche modificato un po 'anche il secondo. Grazie per averlo sottolineato (+1) e benvenuto in Cross Validated!
Matt Krause,

-1

il centroide è la media dei punti dati in un cluster, il punto centroide non deve essere presente nel set di dati mentre il medoide è il punto dati più vicino al centroide, il medoide deve essere presente nei dati originali

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.