Quando scegliere PCA vs. LSA / LSI


9

Domanda:

Esistono linee guida generali in merito alle caratteristiche dei dati di input, che possono essere utilizzate per decidere tra l'applicazione di PCA rispetto a LSA / LSI?

Breve riassunto di PCA vs. LSA / LSI:

Principle Component Analysis (PCA) e Latent Semantic Analysis (LSA) o Latent Semantic Indexing (LSI) sono simili nel senso che tutti si basano fondamentalmente sull'applicazione della decomposizione del valore singolare (SVD) a una matrice.

LSA e LSI sono, per quanto posso dire, la stessa cosa. LSA differisce da PCA non fondamentalmente, ma in termini di modalità di pre-elaborazione delle voci della matrice prima dell'applicazione dell'SVD.

In LSA la fase di preelaborazione comporta in genere la normalizzazione di una matrice di conteggio in cui le colonne corrispondono a "documenti" e le righe corrispondono a un tipo di parola. Le voci possono essere pensate come una sorta di conteggio (normalizzato) di occorrenza di parole per documento.

Nella PCA la fase di preelaborazione prevede il calcolo della matrice di covarianza dalla matrice originale. La matrice originale è concettualmente più "generale" in natura che nel caso di LSA. Per quanto riguarda la PCA, si dice che le colonne si riferiscono a vettori di campioni generici e si dice che le righe si riferiscono a singole variabili che vengono misurate. La matrice di covarianza è per definizione quadrata e simmetrica e in effetti non è necessario applicare l'SVD, poiché la matrice di covarianza può essere scomposta tramite diagonalizzazione. In particolare, la matrice PCA sarà quasi certamente più densa della variante LSA / LSI: zero voci si verificheranno solo dove la covarianza tra le variabili è zero, ovvero dove le variabili sono indipendenti.

Infine, un altro punto descrittivo che viene fatto abbastanza frequentemente per distinguere i due è quello

LSA cerca il miglior sottospazio lineare nella norma di Frobenius, mentre PCA mira al sottospazio lineare affino migliore.

In ogni caso, le differenze e le somiglianze di queste tecniche sono state oggetto di accesi dibattiti in vari forum in tutto il mondo, e chiaramente ci sono alcune differenze salienti, e chiaramente queste due tecniche produrranno risultati diversi.

Quindi ripeto la mia domanda: ci sono delle linee guida generali riguardo alle caratteristiche dei dati di input, che possono essere utilizzate per decidere tra l'applicazione di PCA rispetto a LSA / LSI? Se ho qualcosa che assomiglia a una matrice di documenti termici, LSA / LSI sarà sempre la scelta migliore? Ci si potrebbe aspettare di ottenere risultati migliori in alcuni casi preparando la matrice termine / doc per LSA / LSI e quindi applicando PCA al risultato, invece di applicare direttamente SVD?


1
La tua descrizione di LSA / LSI assomiglia moltissimo all'analisi della corrispondenza (CA) e sospetto che l'acronimo di LSA sta per CA nelle statistiche. CA e PCA sono in effetti strettamente correlati.
ttnphns,

Ehi, volevo solo sapere se hai mai trovato una risposta a questa domanda, ho esattamente la stessa domanda.
Pushpendre,

Cosa stai cercando di fare? Questo potrebbe dare qualche idea su quale potrebbe essere più applicabile. Sei interessato a trovare modelli di testo e correlazioni semantiche o uno spazio latente di dimensione inferiore in termini sia di documenti che di termini?
ui_90jax il

Risposte:


2

Una differenza che ho notato è che PCA può darti solo la somiglianza termine-documento o Documento-Documento (a seconda di come hai moltiplicato la matrice di coreferenza o ) ma SVD / LSA può fornire entrambi poiché hai autovettori sia e . In realtà non vedo un motivo per usare PCA mai su SVD.A A A A A AAAAAAAAA

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.