Dopo aver addestrato i vettori di parole con word2vec, è meglio normalizzarli prima di usarli per alcune applicazioni a valle? Vale a dire quali sono i pro / contro di normalizzarli?
Dopo aver addestrato i vettori di parole con word2vec, è meglio normalizzarli prima di usarli per alcune applicazioni a valle? Vale a dire quali sono i pro / contro di normalizzarli?
Risposte:
Quando le applicazioni a valle si preoccupano solo della direzione dei vettori di parole (ad esempio prestano attenzione solo alla somiglianza del coseno di due parole), quindi si normalizzano e si dimenticano della lunghezza.
Tuttavia, se le applicazioni a valle sono in grado (o hanno bisogno di) considerare aspetti più sensibili, come il significato delle parole o la coerenza nell'uso delle parole (vedi sotto), la normalizzazione potrebbe non essere una buona idea.
Da Levy et al., 2015 (e, in realtà, la maggior parte della letteratura sugli incantesimi di parole):
I vettori sono normalizzati alla lunghezza unitaria prima di essere utilizzati per il calcolo della somiglianza, rendendo la somiglianza del coseno e l'equivalente punto-prodotto.
Anche da Wilson e Schakel, 2015 :
La maggior parte delle applicazioni degli incorporamenti di parole non esplora i vettori di parole stessi, ma le relazioni tra loro per risolvere, ad esempio, i compiti di somiglianza e relazione di parole. Per queste attività, è stato riscontrato che l'utilizzo di vettori di parole normalizzati migliora le prestazioni. La lunghezza del vettore di parola viene pertanto generalmente ignorata.
La normalizzazione equivale a perdere la nozione di lunghezza. Cioè, una volta normalizzata la parola vettori, si dimentica la lunghezza (norma, modulo) che avevano subito dopo la fase di addestramento.
Tuttavia, a volte vale la pena prendere in considerazione la lunghezza originale della parola vettori.
Schakel e Wilson, 2015 hanno osservato alcuni fatti interessanti sulla lunghezza dei vettori di parole:
Una parola utilizzata in modo coerente in un contesto simile verrà rappresentata da un vettore più lungo di una parola della stessa frequenza utilizzata in contesti diversi.
Non solo la direzione, ma anche la lunghezza dei vettori di parole contiene informazioni importanti.
La lunghezza vettoriale delle parole fornisce, in combinazione con la frequenza dei termini, una misura utile del significato delle parole.