Vorrei confrontare la differenza tra la stessa parola menzionata in diverse fonti. Cioè, come gli autori differiscono nel loro uso di parole mal definite, come "democrazia".
Era un breve piano
- Prendi i libri che menzionano il termine "democrazia" come testo semplice
- In ogni libro, sostituiscilo
democracy
condemocracy_%AuthorName%
- Allena un
word2vec
modello su questi libri - Calcola la distanza tra
democracy_AuthorA
,democracy_AuthorB
e altre menzioni di "democrazia"
Quindi la "democrazia" di ogni autore ottiene il suo vettore, che viene utilizzato per il confronto.
Ma sembra che word2vec
richieda molto più di molti libri (ogni parola rietichettata appare solo in un sottoinsieme di libri) per formare vettori affidabili. La pagina ufficiale raccomanda set di dati che includono miliardi di parole.
Volevo solo chiedere quanto dovrebbe essere grande il sottoinsieme dei libri di un autore per fare tale inferenza word2vec
o strumenti alternativi, se disponibili?
window
parametro imposta quante parole nel contesto vengono utilizzate per addestrare il modello per la tua parola w