Perché skip-gram è meglio per parole rare di CBOW?


Risposte:


14

In CBOW i vettori delle parole di contesto sono mediati prima di prevedere la parola centrale. In skip-gram non esiste una media dei vettori di incorporamento. Sembra che il modello possa imparare rappresentazioni migliori per le parole rare quando i loro vettori non sono mediati con le altre parole contestuali nel processo di fare le previsioni.


13

Ecco la mia comprensione semplificata e piuttosto ingenua della differenza:

Come sappiamo, CBOW sta imparando a prevedere la parola in base al contesto. O massimizza la probabilità della parola target osservando il contesto. E questo sembra essere un problema per le parole rare. Ad esempio, dato il contesto yesterday was really [...] daymodello CBOW ti dirà che molto probabilmente la parola è beautifulo nice. Parole come delightfulattireranno molto meno l'attenzione del modello, perché è progettato per prevedere la parola più probabile. Le parole rare verranno smussate su molti esempi con parole più frequenti.

D'altra parte, lo skip-gram è progettato per prevedere il contesto. Data la parola delightful, deve capirla e dirci che esiste un'enorme probabilità, il contesto è yesterday was really [...] dayo qualche altro contesto rilevante. Con skip-gram la parola delightfulnon proverà a competere con la parola beautifulma invece le delightful+contextcoppie verranno trattate come nuove osservazioni. Per questo motivo , skip-gram avrà bisogno di più dati, così imparerà a capire anche le parole rare.


0

Ho appena trovato un documento che mostra il contrario: che CBOW è meglio per le parole rare rispetto a skip-gram https://arxiv.org/abs/1609.08293 . Mi chiedo quali siano le fonti del reclamo dichiarato su https://code.google.com/p/word2vec/ .


Credo che Mikolov abbia scritto quel toolkit da solo. È interessante notare che nel suo articolo: papers.nips.cc/paper/… egli afferma "Mostriamo che il sottocampionamento di parole frequenti durante l'allenamento porta a un significativo aumento della velocità (circa 2x - 10x) e migliora l'accuratezza delle rappresentazioni di parole meno frequenti. " quindi è skip-gram con l'estensione di sottocampionamento.
Kevin,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.