È più simile a una domanda generale sulla PNL. Qual è l'input appropriato per addestrare una parola che incorpora Word2Vec? Tutte le frasi appartenenti a un articolo devono essere un documento separato in un corpus? O ogni articolo dovrebbe essere un documento in detto corpus? Questo è solo un esempio usando Python e Gensim.
Corpus diviso per frase:
SentenceCorpus = [["first", "sentence", "of", "the", "first", "article."],
["second", "sentence", "of", "the", "first", "article."],
["first", "sentence", "of", "the", "second", "article."],
["second", "sentence", "of", "the", "second", "article."]]
Corpus diviso per articolo:
ArticleCorpus = [["first", "sentence", "of", "the", "first", "article.",
"second", "sentence", "of", "the", "first", "article."],
["first", "sentence", "of", "the", "second", "article.",
"second", "sentence", "of", "the", "second", "article."]]
Formazione Word2Vec in Python:
from gensim.models import Word2Vec
wikiWord2Vec = Word2Vec(ArticleCorpus)