LSA vs. PCA (clustering di documenti)


25

Sto studiando varie tecniche utilizzate nel raggruppamento di documenti e vorrei chiarire alcuni dubbi riguardanti PCA (analisi dei componenti principali) e LSA (analisi semantica latente).

Prima cosa: quali sono le differenze tra loro? So che in PCA, la decomposizione SVD viene applicata alla matrice termine-covarianza, mentre in LSA è la matrice termine-documento. C'è niente altro?

Secondo: qual è il loro ruolo nella procedura di raggruppamento dei documenti? Da ciò che ho letto finora, deduco che il loro scopo è la riduzione della dimensionalità, la riduzione del rumore e l'integrazione delle relazioni tra i termini nella rappresentazione. Dopo l'esecuzione di PCA o LSA, vengono applicati algoritmi tradizionali come k-medie o metodi agglomerativi sullo spazio a termine ridotto e vengono utilizzate le tipiche misure di somiglianza, come la distanza del coseno. Per favore correggimi se sbaglio.

Terzo: importa se i termini di TF / IDF sono normalizzati prima di applicare PCA / LSA o no? E dovrebbero essere nuovamente normalizzati dopo?

Quarto: diciamo che ho eseguito alcuni cluster sul termine spazio ridotto da LSA / PCA. Ora, come devo assegnare le etichette ai cluster dei risultati? Dal momento che le dimensioni non corrispondono a parole reali, è piuttosto un problema difficile. L'unica idea che mi viene in mente è il calcolo dei centroidi per ciascun cluster utilizzando i vettori di termini originali e selezionando termini con pesi massimi, ma non sembra molto efficiente. Ci sono alcune soluzioni specifiche per questo problema? Non sono riuscito a trovare nulla.

Sarò molto grato per chiarire questi problemi.


LSA o LSI: uguale o diverso? Se intendi LSI = indicizzazione semantica latente, correggi e standardizza.
Nick Cox,

3
LSI e LSA sono due cose diverse? Ho pensato che fossero equivalenti.
user1315305,

1
Non ne ho idea; il punto è (per favore) usare un termine per una cosa e non due; altrimenti la tua domanda è ancora più difficile da capire.
Nick Cox,

Ok, l'ho corretto alredy. Grazie per averlo segnalato :)
user1315305,

3
Wikipedia dà l'impressione che LSA = LSI. Ma LSI è l' analisi della corrispondenza (CA). CA è un termine di analisi statistica, come PCA, mentre LSI / LSA è un termine di estrazione del testo. Quindi, cerca articoli che confrontano PCA e CA.
ttnphns,

Risposte:


8
  1. PCA e LSA sono entrambe analisi che utilizzano SVD. L'APC è una classe generale di analisi e potrebbe in linea di principio essere applicata ai corpora di testo elencati in vari modi. Al contrario, LSA è un mezzo molto chiaramente specificato per analizzare e ridurre il testo. Entrambi fanno leva sull'idea che il significato possa essere estratto dal contesto. In LSA il contesto è fornito nei numeri attraverso una matrice di documenti termici. Nel PCA che hai proposto il contesto è fornito nei numeri fornendo un termine matrice di covarianza (i dettagli della generazione dei quali probabilmente possono dirti molto di più sulla relazione tra il tuo PCA e LSA). Potresti voler guardare qui per maggiori dettagli.
  2. Sei praticamente in pista qui. Le ragioni esatte per cui vengono utilizzate dipenderanno dal contesto e dagli obiettivi della persona che gioca con i dati.
  3. La risposta dipenderà probabilmente dall'implementazione della procedura che stai utilizzando.
  4. Con attenzione e con grande arte. La maggior parte considera le dimensioni di questi modelli semantici non interpretabili. Si noti che quasi sicuramente ci si aspetta che ci sia più di una dimensione sottostante. Quando nell'analisi fattoriale esiste più di una dimensione, ruotiamo la soluzione fattoriale per produrre fattori interprabili. Tuttavia, per qualche motivo, ciò non avviene in genere per questi modelli. Il tuo approccio sembra un modo di principio per iniziare la tua arte ... anche se non sarei certo che il ridimensionamento tra le dimensioni sia abbastanza simile da fidarsi di una soluzione di analisi del cluster. Se vuoi giocare con un significato, potresti anche considerare un approccio più semplice in cui i vettori hanno una relazione diretta con parole specifiche, ad esempio HAL .

6

LSI viene calcolato sulla matrice del termine documento, mentre il PCA viene calcolato sulla matrice della covarianza, il che significa che LSI tenta di trovare il miglior sottospazio lineare per descrivere il set di dati, mentre il PCA cerca di trovare il miglior sottospazio lineare parallelo.


4
Nick, potresti fornire maggiori dettagli sulla differenza tra il miglior sottospazio lineare e il miglior sottospazio lineare parallelo? Questo è legato all'ortogonalità? Devo porre queste come una nuova domanda?
Russellpierce,

1
Il migliore in che senso? Ridurre al minimo la norma Frobinius dell'errore di ricostruzione? In tal caso, sicuramente suona come PCA per me.
Andrew M,

2

Solo qualche estensione alla risposta di russellpierce.

1) Essenzialmente LSA è il PCA applicato ai dati di testo. Quando si utilizza SVD per PCA, non viene applicato alla matrice di covarianza ma direttamente alla matrice di campionamento delle caratteristiche, che è solo la matrice di termini-documento in LSA. La differenza è che PCA spesso richiede una normalizzazione a livello di funzionalità per i dati, mentre LSA no.

C'è una bella lezione di Andrew Ng che illustra le connessioni tra PCA e LSA.

2/3) Poiché i dati del documento sono di varie lunghezze, in genere è utile normalizzare l'entità. Qui la normalizzazione a livello di campione non dovrebbe essere utilizzata per la normalizzazione a livello di funzionalità. In pratica ho trovato utile normalizzare sia prima che dopo LSI.

Se la metrica dell'algoritmo di clustering non dipende dalla grandezza (ad esempio la distanza del coseno), è possibile omettere l'ultimo passaggio di normalizzazione.

4) Penso che questo sia in generale un problema difficile per ottenere etichette significative dai cluster. Alcune persone estraggono termini / frasi che massimizzano la differenza nella distribuzione tra il corpus e il cluster. Un altro modo è utilizzare il clustering semi supervisionato con etichette predefinite.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.