Modelli di argomenti e metodi di ricorrenza delle parole


26

I modelli di argomenti popolari come LDA di solito raggruppano parole che tendono a ricorrere nello stesso argomento (cluster).

Qual è la differenza principale tra tali modelli di argomenti e altri semplici approcci di clustering basati sulla ricorrenza come PMI? (PMI è l'acronimo di Pointwise Mutual Information, e viene utilizzato per identificare le parole che coincidono con una determinata parola.)

Risposte:


32

Di recente è cresciuto un vasto corpus di letteratura che parla di come estrarre informazioni dal testo scritto. Quindi descriverò solo quattro pietre miliari / modelli popolari e i loro vantaggi / svantaggi e quindi evidenzierò (alcune delle) differenze principali (o almeno quelle che penso siano le differenze principali / più importanti).

Menzionate l'approccio "più semplice", che sarebbe quello di raggruppare i documenti confrontandoli con una query predefinita di termini (come in PMI). Questi metodi di abbinamento lessicale potrebbero tuttavia essere inaccurati a causa della polisemia (significati multipli) e della sinonimia (parole multiple che hanno significati simili) di singoli termini.

Come rimedio, l'indicizzazione semantica latente ( LSI ) cerca di ovviare a ciò mappando termini e documenti in uno spazio semantico latente tramite una scomposizione a valore singolare. I risultati di LSI sono indicatori di significato più solidi di quanto lo sarebbero i singoli termini. Tuttavia, uno svantaggio di LSI è che manca in termini di solide basi probabilistiche.

Ciò è stato parzialmente risolto dall'invenzione del LSI probabilistico ( pLSI ). Nei modelli pLSI ogni parola in un documento è tratta da un modello di miscela specificato tramite variabili casuali multinomiali (che consente anche ricorrenza di ordine superiore come citato da @sviatoslav hong). Questo è stato un importante passo avanti nella modellazione probabilistica del testo, ma era incompleto nel senso che non offre alcuna struttura probabilistica a livello di documenti.

Latent Dirichlet Allocation ( LDA ) allevia questo ed è stato il primo modello completamente probabilistico per il clustering di testo. Blei et al. (2003) mostrano che pLSI è un modello LDA massimo stimato a-posteriori con un Dirichlet uniforme prima.

Si noti che i modelli sopra menzionati (LSI, pLSI, LDA) hanno in comune che si basano sul presupposto del "bag-of-words" - ovvero che all'interno di un documento, le parole sono scambiabili, ovvero l'ordine delle parole in un documento può essere trascurato. Questa ipotesi di scambiabilità offre un'ulteriore giustificazione per LDA rispetto agli altri approcci: supponendo che non solo le parole all'interno dei documenti siano scambiabili, ma anche i documenti, ovvero l'ordine dei documenti all'interno di un corpus possano essere trascurati, il teorema di De Finettiafferma che qualsiasi insieme di variabili casuali scambiabili ha una rappresentazione come distribuzione della miscela. Pertanto, se si assume la possibilità di scambiare documenti e parole all'interno dei documenti, è necessario un modello misto per entrambi. Esattamente questo è ciò che LDA generalmente ottiene, ma PMI o LSI non lo fanno (e nemmeno pLSI non è bello come LDA).


2
1/2 Grazie! Molto chiaro. Fammi controllare se ho capito bene: in LSI, i documenti sono formati da una combinazione di parole (nessuna nozione di argomenti) e parole e documenti sono mappati su uno spazio semantico di dimensione inferiore usando SVD. Poiché le parole con un significato semantico simile sono mappate più da vicino, può gestire la sinonimia ma ha problemi con la polisemia. pLSI risolve il problema della polisemia introducendo il concetto di argomenti. In pLSI, le parole sono tratte da una distribuzione multinomiale di parole (argomenti), la stessa parola può appartenere a più argomenti e un documento ha più argomenti, sebbene questo non sia modellato esplicitamente.
kanzen_master il

2
In generale, penso che tu abbia capito bene. Alcune correzioni minori: LSI è considerato funzionante sia con polisemia che con sinomia. pLSI è fondamentalmente una formulazione per ottenere ciò a cui LSI punta con gli strumenti di analisi di classe latente / mixturemodels e probabilità piuttosto che solo algebra lineare. LDA rispetto a pLSI è un modello completamente generativo specificando una distribuzione di argomenti per documento.
Momo,

1
Per quanto riguarda i tuoi punti su overfitting e previsione, non sono abbastanza informato per una dichiarazione qualificata. Ma, per tutto il suo valore, non vedo perché LDA dovrebbe essere meno incline a sovralimentare rispetto a pLSI (dato che LDA in pratica aggiunge semplicemente un precedente a un modello pLSI). Entrambi non hanno una correzione integrata per overfitting o simili. La "previsione" di nuovi documenti potrebbe effettivamente essere più facile o fattibile con un modello completamente generativo come LDA, vedere stats.stackexchange.com/questions/9315/… Ma vedrei LDA come un modello descrittivo senza supervisione.
Momo,

1
Grazie ancora! Solo 2 domande finali: (1) Per quanto riguarda la polisemia, in questo pdf, alla fine della pagina 3 Hoffman afferma che una delle differenze di PLSI rispetto a LSI è la polisemia, poiché la stessa parola può appartenere a diverse distribuzioni di parole (argomenti); ecco perché pensavo che LSI non funzionasse con la polisemia. (2) Per quanto riguarda l'overfitting, questo blog afferma che un aumento lineare dei parametri suggerisce che il modello è incline a un overfitting. Cosa pensi ?
kanzen_master,

2
Nessun problema. Sai già molto di queste cose, quindi imparo anche cose. ad (1) Bene, come al solito, dipende: LSI può gestire la polisemia a causa della combinazione lineare di termini come fatto in PCA. Lo fa meglio con i sinonimi, ma fino a un certo punto anche con la polisemia. Le parole sostanzialmente polisemiche che sono simili sono componenti aggiunte di parole che condividono un significato simile. Tuttavia, lo fa molto meno bene di pLSI poiché ogni occorrenza di una parola viene rappresentata come un singolo punto nello spazio. La rappresentazione della parola è quindi una media di tutti i diversi significati della parola nel corpus.
Momo,

5

LDA è in grado di acquisire un ordine superiore di ricorrenza di termini (a causa dell'assunzione di ciascun argomento è una distribuzione multinomiale su termini), che non è possibile calcolando solo PMI tra i termini.


4
Grazie! Qual è la definizione di "alto ordine di co-occorrenze"?
kanzen_master il

5

Potrei essere in ritardo di 3 anni, ma voglio dare seguito alla tua domanda sull'esempio di "ordine elevato di ricorrenza".

Fondamentalmente, se il termine t1 ricorre con il termine t2 che coincide con il termine t3, allora il termine t1 è la ricorrenza di secondo ordine con il termine t3. Puoi andare all'ordine più alto se vuoi, ma alla fine controlli quanto dovrebbero essere simili due parole.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.