Sto usando l'indicizzazione semantica latente per trovare somiglianze tra i documenti ( grazie, JMS! )
Dopo la riduzione delle dimensioni, ho provato il clustering k-means per raggruppare i documenti in cluster, il che funziona molto bene. Ma mi piacerebbe andare un po 'oltre e visualizzare i documenti come un insieme di nodi, in cui la distanza tra due nodi qualsiasi è inversamente proporzionale alla loro somiglianza (nodi molto simili sono ravvicinati).
Mi sembra che non riesca a ridurre accuratamente una matrice di somiglianza a un grafico bidimensionale poiché i miei dati sono> 2 dimensioni. Quindi la mia prima domanda: esiste un modo standard per farlo?
Potrei semplicemente ridurre i miei dati a due dimensioni e poi tracciarli come assi X e Y, e sarebbe sufficiente per un gruppo di ~ 100-200 documenti? Se questa è la soluzione, è meglio ridurre i miei dati a 2 dimensioni dall'inizio o esiste un modo per scegliere le due dimensioni "migliori" dai miei dati multidimensionali?
Sto usando Python e la libreria gensim se questo fa la differenza.