Quali sono le differenze tra analisi semantica latente (LSA), indicizzazione semantica latente (LSI) e decomposizione a valore singolare (SVD)?

15

Questi termini vengono spesso messi insieme, ma vorrei sapere quali pensi siano le differenze, se ce ne sono.

Grazie

pca text-mining svd

— Neil McGuigan
fonte

12

LSA e LSI sono utilizzate principalmente come sinonimi, con la comunità di recupero delle informazioni che di solito si riferisce ad essa come LSI. LSA / LSI utilizza SVD per scomporre la matrice del termine-documento A in una matrice del concetto-termine U, una matrice di valore singolare S e una matrice del documento-concetto V nella forma: A = USV '. La pagina di Wikipedia ha una descrizione dettagliata dell'indicizzazione semantica latente .

— ebony1
fonte

8

In particolare, mentre LSA e LSI usano SVD per fare la loro magia, esiste un metodo computazionalmente e concettualmente più semplice chiamato HAL (Hyperspace Analogue to Language) che scorre attraverso il testo tenendo traccia dei contesti precedenti e successivi. I vettori vengono estratti da queste matrici di ricorrenza (spesso ponderate) e vengono selezionate parole specifiche per indicizzare lo spazio semantico. In molti modi mi viene dato di capire che funziona così come LSA senza richiedere il passaggio matematicamente / concettualmente complesso di SVD. Vedi Lund & Burgess, 1996 per i dettagli.

— russellpierce
fonte

4

... ricapitolando il lavoro precedente di Finch e Chater (1992, 1994), Schütze (1993) e altri. HAL, LSA e altri lavori della tecnica nota generando una misura di somiglianza per le parole calcolando la loro somiglianza contestuale. (Questa è la somiglianza di "secondo ordine" di Shephard: la somiglianza di "primo ordine" è quando la parola a si trova vicino alla parola b; la somiglianza di "secondo ordine" è che la parola a si presenta vicino allo stesso tipo di parole della parola b).

— conjugateprior il

3

Confronto e contrasto: per LSA il contesto è il documento completo. Per HAL e altri è una finestra testuale che circonda la parola target. LSA misura la distanza in un sottospazio lineare estratto tramite SVD / PCA e l'altro si occupa delle distanze nello spazio originale del conteggio delle parole circostanti.

— conjugateprior il

6

NMF e SVD sono entrambi algoritmi di fattorizzazione a matrice. Wikipedia ha alcune informazioni rilevanti su NMF .

$A^*A=A A^*$

Gli altri soccorritori hanno coperto LSI / LSA ...

— Emre
fonte

dovrebbe essere una matrice di covarianza, giusto? non la matrice di correlazione.

— Rafael,

Sì, a meno che non centriate prima le variabili.

— Emre,

dopo la normalizzazione delle variabili, diventa matrice di correlazione?

— Rafael,

La normalizzazione è centrata con il ridimensionamento, quindi è diverso.

— Emre,