Tracciare visivamente dati cluster multidimensionali


17

Ho un set di dati con 16 variabili e dopo aver raggruppato per kmean, desidero tracciare i due gruppi.

Quali trame suggerisci di rappresentare visivamente i due cluster?

Risposte:


23

Non esiste una sola visualizzazione corretta. Dipende da quale aspetto dei cluster vuoi vedere o enfatizzare.

Vuoi vedere come contribuisce ogni variabile? Considera un diagramma di coordinate parallele.

Coordinate parallele per due cluster e mezzi cluster

Vuoi vedere come sono distribuiti i cluster lungo i componenti principali? Considera un biplot (in 2D o 3D):

Biplot a grappolo

Vuoi cercare valori anomali del cluster su tutte le dimensioni. Considera un diagramma a dispersione della distanza dal centro del cluster 1 rispetto alla distanza dal centro del cluster 2. (Per definizione di K Significa che ogni cluster cadrà su un lato della linea diagonale.)

inserisci qui la descrizione dell'immagine

Vuoi vedere relazioni a coppie rispetto al clustering. Considera una matrice scatterplot colorata per cluster.

inserisci qui la descrizione dell'immagine

Vuoi vedere una vista di riepilogo delle distanze del cluster? Prendi in considerazione un confronto di qualsiasi visualizzazione di distribuzione, come istogrammi, trame di violino o trame di scatole.

inserisci qui la descrizione dell'immagine


2

I display multivariati sono complicati, soprattutto con quel numero di variabili. Ho due suggerimenti.

Se ci sono alcune variabili che sono particolarmente importanti per il clustering o sostanzialmente interessanti, puoi usare una matrice scatterplot e visualizzare le relazioni bivariate tra le tue variabili interessanti. Potresti anche usare grafici a dispersione migliorati (ad esempio, utilizzare forme con dimensioni proporzionali a una terza variabile) per aggiungere un po 'più di dimensionalità

In alternativa, è possibile utilizzare un diagramma a molla sviluppato per la visualizzazione di dati ad alta dimensione che presentano clustering. Nota, non l'ho mai visto in letteratura con cui ho familiarità, ma penso che sia un modo molto interessante di visualizzare dati multivariati. La seguente citazione è dove la trama è stata originariamente proposta.

Hoffman, PE et al. (1997) Data mining analitico e visivo del DNA. Negli atti della visualizzazione IEEE. Phoenix, AZ, pp. 437-441.

E qui è dove inizialmente ho trovato menzione di esso.

Ora, un avvertimento equo, non sono stato in grado di trovare un'implementazione di trame elastiche al di fuori di Orange. Poi di nuovo, non ho cercato così tanto!

Suppongo che i tuoi dati siano reali e continui, se sono discreti o non intervallati, quindi, non credo che entrambi i grafici sarebbero utili.


1
Esiste un'implementazione di Radviz per R: cran.r-project.org/web/packages/Radviz/vignettes/…
pmav99

1

Puoi usare la funzione fviz_cluster da factoextra pacakge in R. Mostrerà il grafico a dispersione dei tuoi dati e diversi colori dei punti saranno il cluster.

Per quanto ne so, questa funzione esegue il PCA, quindi sceglie i primi due PC e li traccia in 2D.

Qualsiasi suggerimento / miglioramento nella mia risposta sono i benvenuti.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.