Perché il softmax gerarchico è migliore per le parole rare, mentre il campionamento negativo è migliore per le parole frequenti?


Risposte:


10

Non sono un esperto di word2vec, ma dopo aver letto Rong, X. (2014). Word2vec Parameter Learning Spiegato e dalla mia esperienza NN, semplificherei il ragionamento a questo:

  • Il softmax gerarchico prevede un miglioramento dell'efficienza dell'allenamento poiché il vettore di output è determinato da un attraversamento ad albero degli strati della rete; un determinato campione di addestramento deve solo valutare / aggiornare le unità di rete , non . Questo essenzialmente espande i pesi per supportare un ampio vocabolario - una determinata parola è correlata a un minor numero di neuroni e viceversa.O(log(N))O(N)
  • Il campionamento negativo è un modo per campionare i dati di allenamento, in modo simile alla discesa gradiente stocastica, ma la chiave è cercare esempi di allenamento negativo. Intuitivamente, si allena in base a punti di campionamento che avrebbe potuto aspettarsi una parola, ma non ne ha trovata una, che è più veloce dell'addestramento di un intero corpus ogni iterazione e ha senso per le parole comuni.

I due metodi non sembrano essere esclusivi, teoricamente, ma sembra comunque essere il motivo per cui sarebbero meglio per le parole frequenti e poco frequenti.


1

La mia comprensione è che ciò è dovuto al codice Huffman utilizzato durante la creazione della gerarchia di categorie.

Il softmax gerarchico utilizza un albero di nodi sigmoidi anziché un grande softmax, la codifica Huffman assicura che la distribuzione dei punti dati appartenenti a ciascun lato di ogni nodo sigmoid sia bilanciata. Pertanto aiuta a eliminare la preferenza verso le categorie frequenti rispetto all'utilizzo di un grande softmax e al campionamento negativo.


0

Il softmax gerarchico costruisce un albero su tutto il vocabolario e i nodi fogliari che rappresentano parole rare erediteranno inevitabilmente le rappresentazioni vettoriali dei loro antenati nell'albero, che possono essere influenzate da altre parole frequenti nel corpus. Ciò andrà a beneficio della formazione incrementale per il nuovo corpus.

Il campionamento negativo viene sviluppato in base alla stima del contrasto del rumore e campiona casualmente le parole non nel contesto per distinguere i dati osservati dal rumore casuale generato artificialmente.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.