Risposte:
Non esiste una sola visualizzazione corretta. Dipende da quale aspetto dei cluster vuoi vedere o enfatizzare.
Vuoi vedere come contribuisce ogni variabile? Considera un diagramma di coordinate parallele.
Vuoi vedere come sono distribuiti i cluster lungo i componenti principali? Considera un biplot (in 2D o 3D):
Vuoi cercare valori anomali del cluster su tutte le dimensioni. Considera un diagramma a dispersione della distanza dal centro del cluster 1 rispetto alla distanza dal centro del cluster 2. (Per definizione di K Significa che ogni cluster cadrà su un lato della linea diagonale.)
Vuoi vedere relazioni a coppie rispetto al clustering. Considera una matrice scatterplot colorata per cluster.
Vuoi vedere una vista di riepilogo delle distanze del cluster? Prendi in considerazione un confronto di qualsiasi visualizzazione di distribuzione, come istogrammi, trame di violino o trame di scatole.
I display multivariati sono complicati, soprattutto con quel numero di variabili. Ho due suggerimenti.
Se ci sono alcune variabili che sono particolarmente importanti per il clustering o sostanzialmente interessanti, puoi usare una matrice scatterplot e visualizzare le relazioni bivariate tra le tue variabili interessanti. Potresti anche usare grafici a dispersione migliorati (ad esempio, utilizzare forme con dimensioni proporzionali a una terza variabile) per aggiungere un po 'più di dimensionalità
In alternativa, è possibile utilizzare un diagramma a molla sviluppato per la visualizzazione di dati ad alta dimensione che presentano clustering. Nota, non l'ho mai visto in letteratura con cui ho familiarità, ma penso che sia un modo molto interessante di visualizzare dati multivariati. La seguente citazione è dove la trama è stata originariamente proposta.
Hoffman, PE et al. (1997) Data mining analitico e visivo del DNA. Negli atti della visualizzazione IEEE. Phoenix, AZ, pp. 437-441.
E qui è dove inizialmente ho trovato menzione di esso.
Ora, un avvertimento equo, non sono stato in grado di trovare un'implementazione di trame elastiche al di fuori di Orange. Poi di nuovo, non ho cercato così tanto!
Suppongo che i tuoi dati siano reali e continui, se sono discreti o non intervallati, quindi, non credo che entrambi i grafici sarebbero utili.
Puoi usare la funzione fviz_cluster da factoextra pacakge in R. Mostrerà il grafico a dispersione dei tuoi dati e diversi colori dei punti saranno il cluster.
Per quanto ne so, questa funzione esegue il PCA, quindi sceglie i primi due PC e li traccia in 2D.
Qualsiasi suggerimento / miglioramento nella mia risposta sono i benvenuti.