Domanda:
Esistono linee guida generali in merito alle caratteristiche dei dati di input, che possono essere utilizzate per decidere tra l'applicazione di PCA rispetto a LSA / LSI?
Breve riassunto di PCA vs. LSA / LSI:
Principle Component Analysis (PCA) e Latent Semantic Analysis (LSA) o Latent Semantic Indexing (LSI) sono simili nel senso che tutti si basano fondamentalmente sull'applicazione della decomposizione del valore singolare (SVD) a una matrice.
LSA e LSI sono, per quanto posso dire, la stessa cosa. LSA differisce da PCA non fondamentalmente, ma in termini di modalità di pre-elaborazione delle voci della matrice prima dell'applicazione dell'SVD.
In LSA la fase di preelaborazione comporta in genere la normalizzazione di una matrice di conteggio in cui le colonne corrispondono a "documenti" e le righe corrispondono a un tipo di parola. Le voci possono essere pensate come una sorta di conteggio (normalizzato) di occorrenza di parole per documento.
Nella PCA la fase di preelaborazione prevede il calcolo della matrice di covarianza dalla matrice originale. La matrice originale è concettualmente più "generale" in natura che nel caso di LSA. Per quanto riguarda la PCA, si dice che le colonne si riferiscono a vettori di campioni generici e si dice che le righe si riferiscono a singole variabili che vengono misurate. La matrice di covarianza è per definizione quadrata e simmetrica e in effetti non è necessario applicare l'SVD, poiché la matrice di covarianza può essere scomposta tramite diagonalizzazione. In particolare, la matrice PCA sarà quasi certamente più densa della variante LSA / LSI: zero voci si verificheranno solo dove la covarianza tra le variabili è zero, ovvero dove le variabili sono indipendenti.
Infine, un altro punto descrittivo che viene fatto abbastanza frequentemente per distinguere i due è quello
LSA cerca il miglior sottospazio lineare nella norma di Frobenius, mentre PCA mira al sottospazio lineare affino migliore.
In ogni caso, le differenze e le somiglianze di queste tecniche sono state oggetto di accesi dibattiti in vari forum in tutto il mondo, e chiaramente ci sono alcune differenze salienti, e chiaramente queste due tecniche produrranno risultati diversi.
Quindi ripeto la mia domanda: ci sono delle linee guida generali riguardo alle caratteristiche dei dati di input, che possono essere utilizzate per decidere tra l'applicazione di PCA rispetto a LSA / LSI? Se ho qualcosa che assomiglia a una matrice di documenti termici, LSA / LSI sarà sempre la scelta migliore? Ci si potrebbe aspettare di ottenere risultati migliori in alcuni casi preparando la matrice termine / doc per LSA / LSI e quindi applicando PCA al risultato, invece di applicare direttamente SVD?