Dato che stai usando gensim, dovresti probabilmente usare la sua implementazione doc2vec. doc2vec è un'estensione di word2vec a livello di frase, frase e documento. È un'estensione piuttosto semplice, descritta qui
http://cs.stanford.edu/~quocle/paragraph_vector.pdf
Gensim è carino perché è intuitivo, veloce e flessibile. La cosa fantastica è che puoi prendere gli incorporamenti di parole pre-addestrati dalla pagina ufficiale di word2vec e il livello syn0 del modello Doc2Vec di gensim è esposto in modo da poter seminare gli incorporamenti di parole con questi vettori di alta qualità!
GoogleNews-vectors-negative300.bin.gz (come collegato in Google Code )
Penso che gensim sia sicuramente lo strumento più semplice (e finora per me, il migliore) per incorporare una frase in uno spazio vettoriale.
Esistono altre tecniche da frase a vettore rispetto a quella proposta nel documento di Le & Mikolov sopra. Socher e Manning di Stanford sono sicuramente due dei più famosi ricercatori che lavorano in questo settore. Il loro lavoro si è basato sul principio della composizione - la semantica della frase proviene da:
1. semantics of the words
2. rules for how these words interact and combine into phrases
Hanno proposto alcuni di questi modelli (diventando sempre più complessi) su come utilizzare la composizionalità per costruire rappresentazioni a livello di frase.
2011 - spiegamento del codificatore automatico ricorsivo (molto relativamente semplice. Inizia qui se interessati)
2012 - rete neurale matrice-vettore
2013 - rete tensoriale neurale
2015 - Albero LSTM
i suoi documenti sono tutti disponibili su socher.org. Alcuni di questi modelli sono disponibili, ma consiglierei comunque doc2vec di gensim. Per prima cosa, l'URAE 2011 non è particolarmente potente. Inoltre, viene pre-addestrato con pesi adatti per parafrasare i dati di notizie. Il codice che fornisce non consente di riaddestrare la rete. Inoltre, non puoi scambiare diversi vettori di parole, quindi sei bloccato con gli incorporamenti pre-word2vec del 2011 di Turian. Questi vettori non sono certamente al livello di word2vec o GloVe.
Non ho ancora lavorato con Tree LSTM, ma sembra molto promettente!
tl; dr Sì, usa doc2vec di gensim. Ma esistono altri metodi!