Vorrei confrontare la differenza tra la stessa parola menzionata in diverse fonti. Cioè, come gli autori differiscono nel loro uso di parole mal definite, come "democrazia".
Era un breve piano
- Prendi i libri che menzionano il termine "democrazia" come testo semplice
- In ogni libro, sostituiscilo
democracycondemocracy_%AuthorName% - Allena un
word2vecmodello su questi libri - Calcola la distanza tra
democracy_AuthorA,democracy_AuthorBe altre menzioni di "democrazia"
Quindi la "democrazia" di ogni autore ottiene il suo vettore, che viene utilizzato per il confronto.
Ma sembra che word2vecrichieda molto più di molti libri (ogni parola rietichettata appare solo in un sottoinsieme di libri) per formare vettori affidabili. La pagina ufficiale raccomanda set di dati che includono miliardi di parole.
Volevo solo chiedere quanto dovrebbe essere grande il sottoinsieme dei libri di un autore per fare tale inferenza word2veco strumenti alternativi, se disponibili?
windowparametro imposta quante parole nel contesto vengono utilizzate per addestrare il modello per la tua parola w