Problema di classificazione del testo: Word2Vec / NN è l'approccio migliore?


10

Sto cercando di progettare un sistema che dato un paragrafo di testo sarà in grado di classificarlo e identificare il contesto:

  1. È addestrato con paragrafi di testo generati dall'utente (come commenti / domande / risposte)
  2. Ogni elemento nel set di allenamento verrà taggato con. Ad esempio ("categoria 1", "testo paragrafo")
  3. Ci saranno centinaia di categorie

Quale sarebbe l'approccio migliore per costruire un tale sistema? Ho esaminato alcune diverse opzioni e di seguito è riportato un elenco di possibili soluzioni. Word2Vec / NN è la soluzione migliore al momento?

  1. Rete tensoriale neurale ricorsiva alimentata con dati Word2Vec medi
  2. RNTN e Il paragrafo vettoriale ( https://cs.stanford.edu/~quocle/paragraph_vector.pdf )?
  3. TF-IDF utilizzato in una rete di credenze profonde
  4. TF-IDF e regressione logistica
  5. Sacco di parole e classificazione Naive Bayes

Puoi chiarire che tipo di categorie? Dovrà essere in grado di gestire nuove categorie e / o parole invisibili? I requisiti relativi a termini rari e categorie invisibili aiuteranno la progettazione del sistema.
NBartley,

Grazie @NBartley. Anche le parole invisibili avranno un'alta probabilità. I parametri di input saranno contenuti generati dall'utente, quindi la possibilità di nuove parole invisibili sarà molto alta. Le categorie sarebbero definite, ma dovremo espandere l'elenco delle categorie nel tempo. Grazie
Shankar,

Dovresti dare un'occhiata anche a sense2vec arxiv.org/abs/1511.06388 . In poche parole si tratta di incorporamenti di parole combinati con tag di parte del discorso. È stato riferito che ha reso più accurati gli incastonamenti di parole con omonimi chiarimenti. Sarebbe interessante vedere se migliora anche le prestazioni nelle attività di classificazione.
Wacax,

Risposte:


5

1) Max-Entropy (Regressione logistica) sui vettori TFIDF è un buon punto di partenza per molte attività di classificazione della PNL.

2) Word2vec è sicuramente qualcosa che vale la pena provare e confrontare con il modello 1. Suggerirei di usare il sapore Doc2Vec per guardare frasi / paragrafi.

Quoc Le e Tomas Mikolov. Rappresentazioni distribuite di frasi e documenti. http://arxiv.org/pdf/1405.4053v2.pdf

Gensim (python) ha un bel modello Doc2vec.


Grazie @rushimg. Se le categorie sono strettamente correlate, vale a dire il paragrafo del testo che viene utilizzato come input ha una grande quantità di parole comuni, quale dei due approcci sarebbe meglio comprendere il contesto e distinguere tra i due?
Shankar,

Vorrei utilizzare il modello Doc2Vec per il fatto che rimuove l'ipotesi bag-of-word del modello max-ent. Se tf-idf viene utilizzato come funzionalità nel modello max-ent, ciò ridurrebbe anche l'impatto delle parole comuni. Penso che provare entrambi i metodi e modificarli sarebbe il miglior modo di agire.
Rushimg,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.