Di recente è cresciuto un vasto corpus di letteratura che parla di come estrarre informazioni dal testo scritto. Quindi descriverò solo quattro pietre miliari / modelli popolari e i loro vantaggi / svantaggi e quindi evidenzierò (alcune delle) differenze principali (o almeno quelle che penso siano le differenze principali / più importanti).
Menzionate l'approccio "più semplice", che sarebbe quello di raggruppare i documenti confrontandoli con una query predefinita di termini (come in PMI). Questi metodi di abbinamento lessicale potrebbero tuttavia essere inaccurati a causa della polisemia (significati multipli) e della sinonimia (parole multiple che hanno significati simili) di singoli termini.
Come rimedio, l'indicizzazione semantica latente ( LSI ) cerca di ovviare a ciò mappando termini e documenti in uno spazio semantico latente tramite una scomposizione a valore singolare. I risultati di LSI sono indicatori di significato più solidi di quanto lo sarebbero i singoli termini. Tuttavia, uno svantaggio di LSI è che manca in termini di solide basi probabilistiche.
Ciò è stato parzialmente risolto dall'invenzione del LSI probabilistico ( pLSI ). Nei modelli pLSI ogni parola in un documento è tratta da un modello di miscela specificato tramite variabili casuali multinomiali (che consente anche ricorrenza di ordine superiore come citato da @sviatoslav hong). Questo è stato un importante passo avanti nella modellazione probabilistica del testo, ma era incompleto nel senso che non offre alcuna struttura probabilistica a livello di documenti.
Latent Dirichlet Allocation ( LDA ) allevia questo ed è stato il primo modello completamente probabilistico per il clustering di testo. Blei et al. (2003) mostrano che pLSI è un modello LDA massimo stimato a-posteriori con un Dirichlet uniforme prima.
Si noti che i modelli sopra menzionati (LSI, pLSI, LDA) hanno in comune che si basano sul presupposto del "bag-of-words" - ovvero che all'interno di un documento, le parole sono scambiabili, ovvero l'ordine delle parole in un documento può essere trascurato. Questa ipotesi di scambiabilità offre un'ulteriore giustificazione per LDA rispetto agli altri approcci: supponendo che non solo le parole all'interno dei documenti siano scambiabili, ma anche i documenti, ovvero l'ordine dei documenti all'interno di un corpus possano essere trascurati, il teorema di De Finettiafferma che qualsiasi insieme di variabili casuali scambiabili ha una rappresentazione come distribuzione della miscela. Pertanto, se si assume la possibilità di scambiare documenti e parole all'interno dei documenti, è necessario un modello misto per entrambi. Esattamente questo è ciò che LDA generalmente ottiene, ma PMI o LSI non lo fanno (e nemmeno pLSI non è bello come LDA).