Per quanto ne so, la "media" di un cluster e il centroide di un singolo cluster sono la stessa cosa, sebbene il termine "centroide" potrebbe essere un po 'più preciso di "media" quando si tratta di dati multivariati.
Per trovare il centroide, si calcola la media (aritmetica) delle posizioni dei punti separatamente per ogni dimensione. Ad esempio, se hai avuto punti in:
- (-1, 10, 3),
- (0, 5, 2) e
- (1, 20, 10),
quindi il centroide sarebbe situato in ((-1 + 0 + 1) / 3, (10 + 5 + 20) / 3, (3 + 2 + 10) / 3), il che semplifica (0, 11 2/3, 5). (NB: il centroide non deve essere - e raramente è --- uno dei punti dati originali)
Il centroide è talvolta chiamato anche centro di massa o baricentro, in base alla sua interpretazione fisica (è il centro di massa di un oggetto definito dai punti). Come la media, la posizione del centroide riduce al minimo la distanza del quadrato dagli altri punti.
Un'idea correlata è il medoide , che è il punto dati "meno dissimile" da tutti gli altri punti dati. A differenza del centroide, il medoide deve essere uno dei punti originali. Potresti anche essere interessato alla mediana geometrica che è analoga alla mediana, ma per i dati multivariati. Entrambi sono diversi dal centroide.
Tuttavia, come sottolinea Gabe nella sua risposta , c'è una differenza tra la "distanza centroide" e la "distanza media" quando si confrontano i cluster. La distanza del centroide tra il cluster e è semplicemente la distanza tra e . La distanza media viene calcolata trovando la distanza media a coppie tra i punti in ciascun cluster. In altre parole, per ogni punto nel cluster , si calcola , , ...UNBcentroide ( A )centroide ( B )un'ioUNdist ( aio, b1)dist ( aio, b2)dist ( aio, bn) e mediali tutti insieme.