Ciò dipende principalmente dalla quantità di "stato dell'arte" (SOTA) che desideri rispetto alla profondità che desideri raggiungere (gioco di parole previsto ...).
Se riesci a vivere solo con incorporamenti di parole poco profondi forniti da word2vec, Glove o fastText, penso che Word Mover Distance (WMD [sì, davvero ...]) sia una bella funzione per misurare distanze (brevi) di documenti [1] . Ho già visto diversi Notebook Python in passato che forniscono "tutorial" per questa misura della distanza, quindi è davvero facile andare avanti.
Tuttavia, se sei più interessato a SOTA, dovrai esaminare l'apprendimento profondo (rappresentazione in sequenza), usando un qualche tipo di rete ricorrente che apprende un modello di argomento dalle tue frasi. Oltre all'integrazione di incorporamenti (semantici) di parole, questi approcci vanno oltre l'approccio "buono-vecchio" "bag-of-words" imparando le rappresentazioni degli argomenti usando le dipendenzedelle parole nella frase [s]. Ad esempio, il modello di argomento ricorrente a livello di frase (SLRTM) è un modello ricorrente, piuttosto interessante, profondo basato sulle idee della più tradizionale LDA (di Blei et al.) O LSA (Landauer et al.), Ma è solo un arXiv carta (quindi tutti gli avvisi "prendi questo con un granello di sale" di default sulle ricerche non sottoposte a revisione paritaria dovrebbero applicarsi ...) [2]. Tuttavia, il documento ha molti eccellenti suggerimenti e riferimenti per iniziare la tua ricerca se vuoi andare in questa tana del coniglio.
Infine, va chiarito che non sostengo che questi sono i metodi concordati con le migliori prestazioni, rispettivamente, per il bag-of-word e i modelli di sequenza. Ma dovrebbero avvicinarti a qualunque sia la "migliore" SOTA, e almeno dovrebbe servire come un eccellente punto di partenza.
[1] Matt J. Kusner et al. Dagli incantesimi di parole alle distanze dei documenti. Atti della 32a Conferenza internazionale sull'apprendimento automatico, JMLR, 2015.
[2] Fei Tian et al. SLRTM: lasciare che gli argomenti parlino da soli. arXiv 1604.02038, 2016.