Un parallelo tra LSA e pLSA


9

Nel documento originale di pLSA l'autore, Thomas Hoffman, traccia un parallelo tra le strutture di dati pLSA e LSA che vorrei discutere con voi.

Sfondo:

Prendendo ispirazione l'Information Retrieval supponiamo di avere una raccolta di N documenti

D={d1,d2,....,dN}
e un vocabolario di M termini
Ω={ω1,ω2,...,ωM}

Un corpus X può essere rappresentato da una matrice N×M di coincidenze.

Nelle latenti semantiche Analisi di SVD la matrice X è fattorizzata in tre matrici:

X=UΣVT
dove Σ=diag{σ1,...,σs} e la σi sono i valori singolari di X ed s è la posizione di X .

LSA ravvicinamento delle X = U Σ ^ V T viene quindi calcolata troncando le tre matrici a qualche livello k < s , come mostrato in figura:X

X^=U^Σ^VT^
k<s

inserisci qui la descrizione dell'immagine

Z={z1,z2,...,zZ}X dove le tre matrici sono quelle che massimizzano la probabilità del modello.

X=[P(di|zk)]×[diag(P(zk)]×[P(fj|zk)]T

Domanda reale:

L'autore afferma che queste relazioni sussistono:

  • U=[P(di|zk)]
  • Σ^=[diag(P(zk)]
  • V=[P(fj|zk)]

e che la differenza cruciale tra LSA e pLSA è la funzione oggettiva utilizzata per determinare la decomposizione / approssimazione ottimale.

X^

Potete aiutarmi a chiarire questo punto?

d

d^=d×V×VT
  1. Questo è sempre valido?
  2. d^=d×[P(fj|zk)]×[P(fj|zk)]T

Grazie.

Risposte:


12

Per semplicità, sto dando qui la connessione tra LSA e fattorizzazione a matrice non negativa (NMF), e quindi mostrerò come una semplice modifica della funzione di costo porta a pLSA. Come affermato in precedenza, LSA e pLSA sono entrambi metodi di fattorizzazione nel senso che, fino alla normalizzazione di righe e colonne, la decomposizione di basso livello della matrice del termine del documento:

X=UΣD

usando le notazioni precedenti. Più semplicemente, la matrice del termine del documento può essere scritta come un prodotto di due matrici:

X=ABT

AN×sBM×sA=UΣB=VΣ

Un modo semplice per capire la differenza tra LSA e NMF è usare la loro interpretazione geometrica:

  • minA,BXABTF2,
  • NMF- è la soluzione di: L2

    minA0,B0XABTF2,
  • NMF-KL è equivalente a pLSA ed è la soluzione di:

    minA0,B0KL(X||ABT).

dove rappresenta l' Kullback-Leibler divergenza tra matrici e . È facile vedere che tutti i problemi sopra non hanno una soluzione unica, dal momento che si può moltiplicare per un numero positivo e dividere XYABAp(zk|di)XBp(fj|zk)AAp(di|zk)KL(X||Y)=ijxijlogxijyijXYABdallo stesso numero per ottenere lo stesso valore oggettivo. Quindi, - nel caso dell'LSA, le persone di solito scelgono una base ortogonale ordinata per autovalori decrescenti. Ciò è dato dalla decomposizione SVD e identifica la soluzione LSA, ma qualsiasi altra scelta sarebbe possibile in quanto non ha alcun impatto sulla maggior parte delle operazioni (somiglianza del coseno, formula di levigatura di cui sopra, ecc.). - nel caso di NMF, una decomposizione ortogonale non è possibile, ma le righe di sono generalmente vincolate a sommare a una, perché ha un'interpretazione probabilistica diretta come . Se inoltre, le righe di sono normalizzate (cioè somma a una), allora le righe di devono sommare a una, portando all'interpretazione probabilisticaAp(zk|di)XBp(fj|zk) . C'è una leggera differenza con la versione di pLSA data nella domanda precedente perché le colonne di sono costrette a sommare a una, quindi i valori in sono , ma la differenza è solo una modifica della parametrizzazione , il problema rimane lo stesso.AAp(di|zk)

Ora, per rispondere alla domanda iniziale, c'è qualcosa di sottile nella differenza tra LSA e pLSA (e altri algoritmi NMF): i vincoli di non negatività inducono un "effetto di raggruppamento" che non è valido nel caso LSA classico perché il Valore Singolare La soluzione di decomposizione è invariante a rotazione. I vincoli di non negatività interrompono in qualche modo questa invarianza rotazionale e danno fattori con una sorta di significato semantico (argomenti nell'analisi del testo). Il primo documento per spiegarlo è:

Donoho, David L. e Victoria C. Stodden. "Quando la fattorizzazione a matrice non negativa dà una corretta decomposizione in parti?" Progressi nei sistemi di elaborazione delle informazioni neurali 16: atti della conferenza del 2003. MIT Press, 2004. [link]

Altrimenti, la relazione tra PLSA e NMF è descritta qui:

Ding, Chris, Tao Li e Wei Peng. "Sull'equivalenza tra fattorizzazione a matrice non negativa e indicizzazione semantica latente probabilistica." Statistiche computazionali e analisi dei dati 52,8 (2008): 3913-3927. [link]

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.