Qual è un input migliore per Word2Vec?

22

È più simile a una domanda generale sulla PNL. Qual è l'input appropriato per addestrare una parola che incorpora Word2Vec? Tutte le frasi appartenenti a un articolo devono essere un documento separato in un corpus? O ogni articolo dovrebbe essere un documento in detto corpus? Questo è solo un esempio usando Python e Gensim.

Corpus diviso per frase:

SentenceCorpus = [["first", "sentence", "of", "the", "first", "article."],
                  ["second", "sentence", "of", "the", "first", "article."],
                  ["first", "sentence", "of", "the", "second", "article."],
                  ["second", "sentence", "of", "the", "second", "article."]]

Corpus diviso per articolo:

ArticleCorpus = [["first", "sentence", "of", "the", "first", "article.",
                  "second", "sentence", "of", "the", "first", "article."],
                 ["first", "sentence", "of", "the", "second", "article.",
                  "second", "sentence", "of", "the", "second", "article."]]

Formazione Word2Vec in Python:

from gensim.models import Word2Vec

wikiWord2Vec = Word2Vec(ArticleCorpus)

nlp word-embeddings

— wacax
fonte

14

La risposta a questa domanda è che dipende . L'approccio principale è quello di passare le frasi tokenizzate (quindi SentenceCorpusnel tuo esempio), ma a seconda di quale sia il tuo obiettivo e quale corpus stai guardando, potresti voler utilizzare l'intero articolo per imparare gli incorporamenti. Questo è qualcosa che potresti non conoscere in anticipo - quindi dovrai pensare a come valutare la qualità degli incorporamenti e fare alcuni esperimenti per vedere quale "tipo" di incorporamenti è più utile per il tuo compito ( S).

— NBartley
fonte

Proprio sul posto. Ho usato le decorazioni in un modello e, proprio come hai menzionato, c'è stato un grande miglioramento delle prestazioni predittive del modello quando ho usato l'intero articolo. In tal caso, l'addestramento frase per frase sarebbe superiore.

— Wacax,

1

Dovresti guardare e vedere come le parole che hanno vettori simili sono correlate tra loro. Sono stati fatti alcuni lavori sulla dimensione della finestra di contesto e sul tipo di contesto che suggeriscono che finestre più piccole (e forse dimensioni di documenti più piccole, come frasi), potrebbero rendere le parole funzionalmente simili (come gli stati USA) piuttosto che simili ( come gli stati degli Stati Uniti e le parole relative al governo) hanno vettori più simili. Sto principalmente citando Omer Levy e Yoav Goldberg basati sulle dipendenze di parole dal 2014. Potrei sbagliarmi però e mi piacerebbe essere corretto in tal caso.

— NBartley,

1

In aggiunta alla risposta di @ NBartley. A chiunque si imbatta in questa domanda. Ho provato a usare l'articolo / frase come input per word2vec su Spark2.2, risultato come segue.

usa la frase come input:

usa l' articolo come input:

— Zaccaria
fonte

0

Per il primo, gensim ha la classe Word2Vec. Per quest'ultimo, Doc2Vec.

http://rare-technologies.com/doc2vec-tutorial/

3

doc2vec è sostanzialmente diverso dall'eseguire word2vec su un corpus di articoli piuttosto che su frasi. doc2vec imparerà le rappresentazioni degli articoli stessi, piuttosto che solo le parole.

— jamesmf,