Sono rimasto impressionato dai risultati del documento ICML 2014 " Rappresentazioni distribuite di frasi e documenti " di Le e Mikolov. La tecnica che descrivono, chiamata "vettori di paragrafo", apprende rappresentazioni senza supervisione di paragrafi / documenti arbitrariamente lunghi, basati su un'estensione del modello word2vec. Il documento riporta prestazioni all'avanguardia sull'analisi dei sentimenti usando questa tecnica.
Speravo di valutare questa tecnica su altri problemi di classificazione del testo, in alternativa alla tradizionale rappresentazione bag-of-word. Tuttavia, mi sono imbattuto in un post del secondo autore in una discussione nel gruppo Google word2vec che mi ha dato una pausa:
Ho provato a riprodurre i risultati di Quoc durante l'estate; Potrei portare i tassi di errore nel set di dati IMDB a circa il 9,4% - 10% (a seconda di quanto fosse buona la normalizzazione del testo). Tuttavia, non sono riuscito ad avvicinarmi a ciò che Quoc ha riportato nel documento (errore del 7,4%, questa è una differenza enorme) ... Naturalmente abbiamo anche chiesto a Quoc il codice; ha promesso di pubblicarlo ma finora non è successo nulla. ... Sto iniziando a pensare che i risultati di Quoc non siano effettivamente riproducibili.
Qualcuno ha avuto successo nel riprodurre questi risultati?