Sto cercando di superare la prima serie di problemi del materiale del corso di classe Stanford cs224d online e sto riscontrando alcuni problemi con il problema 3A: quando si utilizza il modello skip gram word2vec con la funzione di previsione softmax e la funzione di perdita incrociata dell'entropia, noi desidera calcolare i gradienti rispetto ai vettori di parole previsti. Quindi data la funzione softmax:
e funzione entropia incrociata:
dobbiamo calcolare
I miei passi sono i seguenti:
ora dato è un vettore caldo ed io sono la classe corretta:
È corretto o potrebbe essere ulteriormente semplificato? Voglio provare ad assicurarmi di essere sulla strada giusta poiché le soluzioni del set di problemi non sono pubblicate online. Inoltre, ottenere correttamente i compiti scritti è importante per poter svolgere correttamente i compiti di programmazione.