Sto attraversando i problemi dei problemi di assegnazione scritta del corso di apprendimento profondo della PNL di Stanford http://cs224d.stanford.edu/assignment1/assignment1_soln
Sto cercando di capire la risposta per 3a dove stanno cercando la derivata del vettore per la parola centrale.
Supponiamo che ti venga dato un vettore di parola previsto corrispondente alla parola centrale c per lo skipgram e che la previsione della parola venga effettuata con la funzione softmax presente nei modelli word2vec.
Dove w indica la w-esima parola e (w = 1,..., W) sono i vettori di parole "output" per tutte le parole del vocabolario. Supponiamo che il costo dell'entropia incrociata sia applicato a questa previsione e la parola o sia la parola attesa.
Dove è la matrice di tutti i vettori di output e fa in modo che sia il vettore di colonna della previsione di softmax delle parole e y sia l'etichetta one-hot che è anche un vettore di colonna.
Dove cross entropy è
Quindi la risposta per il gradiente per il vettore centrale è
Qualcuno potrebbe mostrarmi i passaggi per arrivare a questo? Ho usato questa domanda come riferimento Derivata della perdita di entropia incrociata in word2vec, ma in particolare desidero conoscere larappresentazione.