Le prestazioni allo stato dell'arte riportate nell'uso dei vettori di paragrafo per l'analisi del sentiment sono state replicate?


20

Sono rimasto impressionato dai risultati del documento ICML 2014 " Rappresentazioni distribuite di frasi e documenti " di Le e Mikolov. La tecnica che descrivono, chiamata "vettori di paragrafo", apprende rappresentazioni senza supervisione di paragrafi / documenti arbitrariamente lunghi, basati su un'estensione del modello word2vec. Il documento riporta prestazioni all'avanguardia sull'analisi dei sentimenti usando questa tecnica.

Speravo di valutare questa tecnica su altri problemi di classificazione del testo, in alternativa alla tradizionale rappresentazione bag-of-word. Tuttavia, mi sono imbattuto in un post del secondo autore in una discussione nel gruppo Google word2vec che mi ha dato una pausa:

Ho provato a riprodurre i risultati di Quoc durante l'estate; Potrei portare i tassi di errore nel set di dati IMDB a circa il 9,4% - 10% (a seconda di quanto fosse buona la normalizzazione del testo). Tuttavia, non sono riuscito ad avvicinarmi a ciò che Quoc ha riportato nel documento (errore del 7,4%, questa è una differenza enorme) ... Naturalmente abbiamo anche chiesto a Quoc il codice; ha promesso di pubblicarlo ma finora non è successo nulla. ... Sto iniziando a pensare che i risultati di Quoc non siano effettivamente riproducibili.

Qualcuno ha avuto successo nel riprodurre questi risultati?


Questa situazione è ancora cambiata? So che Gensim ha implementato una versione di doc2vec (vettori di paragrafo / documento), vedere: radimrehurek.com/gensim/models/doc2vec.html ma nessun tentativo di riprodurre i risultati nel documento citato qui.
Doctorambient,

1
Sì, ci sono stati tentativi di riprodurre i risultati della carta usando gensim : consultare il notebook doc2vec IPython .
Radim,

Risposte:


13

Nota in calce su http://arxiv.org/abs/1412.5335 (uno degli autori è Tomas Mikolov) afferma

Nei nostri esperimenti, per abbinare i risultati di (Le & Mikolov, 2014), abbiamo seguito il suggerimento di Quoc Le di utilizzare il softmax gerarchico invece del campionamento negativo. Tuttavia, questo produce il risultato di precisione del 92,6% solo quando i dati di allenamento e test non vengono mescolati. Pertanto, riteniamo che questo risultato non sia valido.


1
Non capisco perché "non mischiato" ==> non valido. Non esiste una divisione ben definita tra treno / set di prova? In modo che ciò che è train / test dipende da come mescoli il set di dati (originale)? L'ordine del set di test non dovrebbe avere importanza (non esiste una valutazione dinamica, giusto?). E l'ordine del set di allenamento non dovrebbe importare molto neanche ...
capybaralet,

@ user2429920 Se stanno riscontrando differenze, allora l'ordine in qualche modo è importante.
JAB
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.