Sto cercando di eseguire il clustering a livello di documento. Ho costruito la matrice di frequenza dei termini-documento e sto cercando di raggruppare questi vettori ad alta dimensione usando k-medie. Invece di raggruppare direttamente, quello che ho fatto è stato prima applicare la decomposizione vettoriale singolare di LSA (Latent Semantic Analysis) per ottenere le matrici U, S, Vt, selezionato una soglia adatta usando il diagramma ghiaione e applicato il clustering sulle matrici ridotte (in particolare Vt perché mi dà informazioni sul documento di concetto) che mi sembra dare buoni risultati.
Ho sentito alcune persone dire che SVD (decomposizione vettoriale singolare) è il clustering (usando la misura della somiglianza del coseno ecc.) E non ero sicuro di poter applicare k-medie sull'output di SVD. Ho pensato che fosse logicamente corretto perché SVD è una tecnica di riduzione della dimensionalità, mi dà un sacco di nuovi vettori. k-mean, d'altra parte, prenderà il numero di cluster come input e dividerà questi vettori nel numero specificato di cluster. Questa procedura è difettosa o ci sono modi per migliorarla? Eventuali suggerimenti?