Modelli di argomenti per documenti brevi

14

Ispirato da questa domanda , mi chiedo se sia stato fatto qualche lavoro su modelli di argomenti per grandi raccolte di testi estremamente brevi. La mia intuizione è che Twitter dovrebbe essere un'ispirazione naturale per tali modelli. Tuttavia, da una sperimentazione limitata, sembra che i modelli di argomenti standard (LDA, ecc.) Funzionino piuttosto male su questo tipo di dati.

Qualcuno là fuori conosce qualche lavoro che è stato fatto in questo settore? Questo articolo parla dell'applicazione di LDA a Twitter, ma sono davvero interessato a sapere se ci sono altri algoritmi che funzionano meglio nel contesto dei documenti brevi.

— Martin O'Leary
fonte

2

Twitter è un set di dati particolarmente difficile per la modellazione di argomenti non solo a causa delle ridotte dimensioni dei "documenti", ma anche per il tipo di testo. Le persone tendono ad usare varie scorciatoie di messaggistica che rendono ancora più difficile l'identificazione delle ricorrenza.

— Nick,

Consulta l'elenco di buoni documenti e i corrispondenti codici sorgente per la modellazione degli argomenti sui Tweet su: quora.com/…

— NQD

7

Questa è una risposta tardiva, ma può essere utile per altre persone che cercano ricerche e strumenti correlati per questo problema:

Weiwei Guo della Columbia ha implementato il codice per la modellazione di argomenti di testo breve. Ha descritto l'implementazione nel documento "Modelling Sentences in the Latent Space" ( http://aclweb.org/anthology-new/P/P12/P12-1091v2.pdf ) e il codice è disponibile qui: http: // www .cs.columbia.edu / ~ Weiwei / code.html
Sebbene non si tratti di modellazione di argomenti, se si dispone di un'attività di classificazione che coinvolge brevi testi, è possibile utilizzare LibShortText. Dalla loro descrizione del sito web

"LibShortText è uno strumento open source per la classificazione e l'analisi di testi brevi. Può gestire la classificazione, ad esempio, di titoli, domande, frasi e brevi messaggi ..."

http://www.csie.ntu.edu.tw/~cjlin/libshorttext/

— DPS
fonte

6

Anche se non conosco molto bene il suo lavoro, so che Jacob Eisenstein ha svolto un lavoro di analisi del testo e modelli grafici nei dati di Twitter. In particolare, questo documento descrive un'applicazione della modellazione di argomenti nei dati di Twitter e nei microblog.

Modifica: in realtà dopo aver letto un po 'di più il documento, dichiarano:

Tuttavia, il messaggio medio su Twitter è solo un token di sedici parole, che è troppo scarso per la modellazione tradizionale di argomenti; invece, abbiamo raccolto tutti i messaggi di un determinato utente in un unico documento.

Quindi forse proprio quel giornale potrebbe non essere di grande aiuto, ma forse altre pubblicazioni di Eisenstein potrebbero condurti nella giusta direzione.

— Junier
fonte

6

Un recente documento chiamato " un modello di argomento biterm per il testo breve " (WWW13) ha fatto alcuni progressi su questo argomento, ed ecco il suo codice

— Xiaohui Yan
fonte

2

Confermo che BiTerm LDA ha funzionato abbastanza bene per la modellazione di argomenti di breve testo (3-8 parole) e la successiva classificazione.

— Vladislavs Dovgalecs,