Di quanti dati di formazione ha bisogno word2vec?

Vorrei confrontare la differenza tra la stessa parola menzionata in diverse fonti. Cioè, come gli autori differiscono nel loro uso di parole mal definite, come "democrazia".

Era un breve piano

Prendi i libri che menzionano il termine "democrazia" come testo semplice
In ogni libro, sostituiscilo democracycondemocracy_%AuthorName%
Allena un word2vecmodello su questi libri
Calcola la distanza tra democracy_AuthorA, democracy_AuthorBe altre menzioni di "democrazia"

Quindi la "democrazia" di ogni autore ottiene il suo vettore, che viene utilizzato per il confronto.

Ma sembra che word2vecrichieda molto più di molti libri (ogni parola rietichettata appare solo in un sottoinsieme di libri) per formare vettori affidabili. La pagina ufficiale raccomanda set di dati che includono miliardi di parole.

Volevo solo chiedere quanto dovrebbe essere grande il sottoinsieme dei libri di un autore per fare tale inferenza word2veco strumenti alternativi, se disponibili?

text-mining word-embeddings

— Anton Tarasenko
fonte

I libri che stai usando esclusivamente sul tema della democrazia, in caso contrario, la tua metrica della distanza non potrebbe essere sommersa da differenze maggiori tra i contenuti dei libri? Questo è un effetto collaterale del tuo problema di trovarti in uno spazio dimensionale molto elevato e di essere toccato dalla mano della maledizione della dimensionalità. Forse prendere solo una piccola regione di testo attorno alla parola di interesse sarebbe di aiuto, ma è ancora un problema con dimensioni significative.

— image_doctor il

Sì, questa è l'essenza. qui va con una metafora probabilmente mal pensata. Immagina che i capitoli dei libri siano rappresentati dai colori. E un libro nel suo insieme rappresentato come la miscela di tutti i colori dei capitoli. Un libro sulla democrazia nell'Europa occidentale probabilmente finirebbe con una sfumatura rossastra complessiva come la somma dei suoi capitoli. Se rappresentiamo il turismo con il blu, un libro sul turismo a Cuba, con un solo capitolo sulla democrazia e la sua influenza sullo sviluppo economico, avrebbe una forte tonalità blu. Quindi i due libri sembrerebbero molto diversi se visti nel loro insieme.

— image_doctor il

Questo è il modo più accessibile di dire ciò che uno scienziato di dati avrebbe definito i vettori per i due libri sarà molto distante nello spazio delle caratteristiche e quindi apparirà abbastanza dissimile. È davvero difficile quantificare in anticipo quanti esempi ti serviranno senza giocare con i dati, ma il linguaggio è sottile e stratificato, quindi probabilmente ne vorrai quanti ne puoi ottenere .... e forse di più. Alla fine non lo saprai finché non ci provi. Non è una risposta concreta, ma a meno che qualcuno non abbia un'esperienza diretta di fare una cosa simile, è probabilmente la migliore che otterrai.

— image_doctor,

word2vec utilizza già solo "una piccola regione di testo attorno alla parola di interesse". Il windowparametro imposta quante parole nel contesto vengono utilizzate per addestrare il modello per la tua parola w

— jamesmf

@politicalscientist Non avevo finito questo progetto.

— Anton Tarasenko,

Sembra che doc2vec (o i vettori di paragrafo / contesto) possano essere adatti a questo problema.

In breve, oltre ai vettori di parole, aggiungi un "vettore di contesto" (nel tuo caso, un incorporamento per l'autore) che viene utilizzato per prevedere le parole del centro o del contesto.

Ciò significa che trarrebbero vantaggio da tutti i dati sulla "democrazia", ma anche che si estrae un incorporamento per quell'autore, che combinato dovrebbe consentire di analizzare la parzialità di ciascun autore con dati limitati su ciascun autore.

Puoi usare l'implementazione di gensim . Il documento include collegamenti ai documenti di origine.

— halfling
fonte