Sto studiando varie tecniche utilizzate nel raggruppamento di documenti e vorrei chiarire alcuni dubbi riguardanti PCA (analisi dei componenti principali) e LSA (analisi semantica latente).
Prima cosa: quali sono le differenze tra loro? So che in PCA, la decomposizione SVD viene applicata alla matrice termine-covarianza, mentre in LSA è la matrice termine-documento. C'è niente altro?
Secondo: qual è il loro ruolo nella procedura di raggruppamento dei documenti? Da ciò che ho letto finora, deduco che il loro scopo è la riduzione della dimensionalità, la riduzione del rumore e l'integrazione delle relazioni tra i termini nella rappresentazione. Dopo l'esecuzione di PCA o LSA, vengono applicati algoritmi tradizionali come k-medie o metodi agglomerativi sullo spazio a termine ridotto e vengono utilizzate le tipiche misure di somiglianza, come la distanza del coseno. Per favore correggimi se sbaglio.
Terzo: importa se i termini di TF / IDF sono normalizzati prima di applicare PCA / LSA o no? E dovrebbero essere nuovamente normalizzati dopo?
Quarto: diciamo che ho eseguito alcuni cluster sul termine spazio ridotto da LSA / PCA. Ora, come devo assegnare le etichette ai cluster dei risultati? Dal momento che le dimensioni non corrispondono a parole reali, è piuttosto un problema difficile. L'unica idea che mi viene in mente è il calcolo dei centroidi per ciascun cluster utilizzando i vettori di termini originali e selezionando termini con pesi massimi, ma non sembra molto efficiente. Ci sono alcune soluzioni specifiche per questo problema? Non sono riuscito a trovare nulla.
Sarò molto grato per chiarire questi problemi.