Quali sono le differenze tra analisi semantica latente (LSA), indicizzazione semantica latente (LSI) e decomposizione a valore singolare (SVD)?


15

Questi termini vengono spesso messi insieme, ma vorrei sapere quali pensi siano le differenze, se ce ne sono.

Grazie

Risposte:


12

LSA e LSI sono utilizzate principalmente come sinonimi, con la comunità di recupero delle informazioni che di solito si riferisce ad essa come LSI. LSA / LSI utilizza SVD per scomporre la matrice del termine-documento A in una matrice del concetto-termine U, una matrice di valore singolare S e una matrice del documento-concetto V nella forma: A = USV '. La pagina di Wikipedia ha una descrizione dettagliata dell'indicizzazione semantica latente .


8

In particolare, mentre LSA e LSI usano SVD per fare la loro magia, esiste un metodo computazionalmente e concettualmente più semplice chiamato HAL (Hyperspace Analogue to Language) che scorre attraverso il testo tenendo traccia dei contesti precedenti e successivi. I vettori vengono estratti da queste matrici di ricorrenza (spesso ponderate) e vengono selezionate parole specifiche per indicizzare lo spazio semantico. In molti modi mi viene dato di capire che funziona così come LSA senza richiedere il passaggio matematicamente / concettualmente complesso di SVD. Vedi Lund & Burgess, 1996 per i dettagli.


4
... ricapitolando il lavoro precedente di Finch e Chater (1992, 1994), Schütze (1993) e altri. HAL, LSA e altri lavori della tecnica nota generando una misura di somiglianza per le parole calcolando la loro somiglianza contestuale. (Questa è la somiglianza di "secondo ordine" di Shephard: la somiglianza di "primo ordine" è quando la parola a si trova vicino alla parola b; la somiglianza di "secondo ordine" è che la parola a si presenta vicino allo stesso tipo di parole della parola b).
conjugateprior il

3
Confronto e contrasto: per LSA il contesto è il documento completo. Per HAL e altri è una finestra testuale che circonda la parola target. LSA misura la distanza in un sottospazio lineare estratto tramite SVD / PCA e l'altro si occupa delle distanze nello spazio originale del conteggio delle parole circostanti.
conjugateprior il

6

NMF e SVD sono entrambi algoritmi di fattorizzazione a matrice. Wikipedia ha alcune informazioni rilevanti su NMF .

UN*UN=UNUN*

Gli altri soccorritori hanno coperto LSI / LSA ...


dovrebbe essere una matrice di covarianza, giusto? non la matrice di correlazione.
Rafael,

Sì, a meno che non centriate prima le variabili.
Emre,

dopo la normalizzazione delle variabili, diventa matrice di correlazione?
Rafael,

La normalizzazione è centrata con il ridimensionamento, quindi è diverso.
Emre,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.