Backpropagation con Softmax / Cross Entropy

40

Sto cercando di capire come funziona la backpropagation per un livello di output softmax / cross-entropia.

La funzione di errore di entropia incrociata è

E (t, o) = - \sum_{j} t_{j} \log o_{j}

$E(t,o)=-\sum_j t_j \log o_j$

con e come target e output al neurone , rispettivamente. La somma è su ogni neurone nel livello di output. stesso è il risultato della funzione softmax: $t$ $o$ $j$ $o_j$

o_{j} = s o f t m a x (z_{j}) = \frac{e^{z_{j}}}{\sum_{j} e^{z_{j}}}

$o_j=softmax(z_j)=\frac{e^{z_j}}{\sum_j e^{z_j}}$

Ancora una volta, la somma è su ogni neurone nel livello di output e è l'input per il neurone : $z_j$ $j$

z_{j} = \sum_{i} w_{i j} o_{i} + b

$z_j=\sum_i w_{ij}o_i+b$

Questa è la somma di tutti i neuroni nel livello precedente con la loro corrispondente uscita e peso verso il neurone più un bias . $o_i$ $w_{ij}$ $j$ $b$

Ora, per aggiornare un peso che collega un neurone nel livello di output con un neurone nel livello precedente, devo calcolare la derivata parziale della funzione di errore usando la regola della catena: $w_{ij}$ $j$ $i$

\frac{\partial E}{\partial w_{i j}} = \frac{\partial E}{\partial o_{j}} \frac{\partial o_{j}}{\partial z_{j}} \frac{\partial z_{j}}{\partial w_{i j}}

$\frac{\partial E} {\partial w_{ij}}=\frac{\partial E} {\partial o_j} \frac{\partial o_j} {\partial z_{j}} \frac{\partial z_j} {\partial w_{ij}}$

con $z_j$ come input per il neurone $j$ .

L'ultimo termine è abbastanza semplice. Poiché esiste solo un peso tra $i$ e $j$ , la derivata è:

\frac{\partial z_{j}}{\partial w_{i j}} = o_{i}

$\frac{\partial z_j} {\partial w_{ij}}=o_i$

Il primo termine è la derivazione della funzione di errore rispetto all'output $o_j$ :

\frac{\partial E}{\partial o_{j}} = \frac{- t_{j}}{o_{j}}

$\frac{\partial E} {\partial o_j} = \frac{-t_j}{o_j}$

Il termine medio è la derivazione della funzione softmax rispetto al suo input è più difficile: $z_j$

\frac{\partial o_{j}}{\partial z_{j}} = \frac{\partial}{\partial z_{j}} \frac{e^{z_{j}}}{\sum_{j} e^{z_{j}}}

$\frac{\partial o_j} {\partial z_{j}}=\frac{\partial} {\partial z_{j}} \frac{e^{z_j}}{\sum_j e^{z_j}}$

Supponiamo di avere tre neuroni in uscita corrispondenti alle classi quindi è: $a,b,c$ $o_b = softmax(b)$

o_{b} = \frac{e^{z_{b}}}{\sum e^{z}} = \frac{e^{z_{b}}}{e^{z_{a}} + e^{z_{b}} + e^{z_{c}}}

$o_b=\frac{e^{z_b}}{\sum e^{z}}=\frac{e^{z_b}}{e^{z_a}+e^{z_b}+e^{z_c}}$

e la sua derivazione usando la regola del quoziente:

\frac{\partial o_{b}}{\partial z_{b}} = \frac{e^{z_{b}} * \sum e^{z} - (e^{z_{b}})^{2}}{(\sum_{j} e^{z})^{2}} = \frac{e^{z_{b}}}{\sum e^{z}} - \frac{(e^{z_{b}})^{2}}{(\sum e^{z})^{2}}

$\frac{\partial o_b} {\partial z_{b}}=\frac{e^{z_b}*\sum e^z - (e^{z_b})^2}{(\sum_j e^{z})^2}=\frac{e^{z_b}}{\sum e^z}-\frac{(e^{z_b})^2}{(\sum e^z)^2}$

= s o f t m a x (b) - s o f t m a x^{2} (b) = o_{b} - o_{b}^{2} = o_{b} (1 - o_{b})

$=softmax(b)-softmax^2(b)=o_b-o_b^2=o_b(1-o_b)$ Ritorno al termine medio per backpropagation significa:

\frac{\partial o_{j}}{\partial z_{j}} = o_{j} (1 - o_{j})

$\frac{\partial o_j} {\partial z_{j}}=o_j(1-o_j)$

Mettendo tutto insieme ottengo

\frac{\partial E}{\partial w_{i j}} = \frac{- t_{j}}{o_{j}} * o_{j} (1 - o_{j}) * o_{i} = - t_{j} (1 - o_{j}) * o_{i}

$\frac{\partial E} {\partial w_{ij}}= \frac{-t_j}{o_j}*o_j(1-o_j)*o_i=-t_j(1-o_j)*o_i$

il che significa che se l'obiettivo per questa classe è , non aggiornerò i pesi per questo. Non suona bene. $t_j=0$

Studiando su questo ho trovato persone con due varianti per la derivazione del softmax, una in cui e l'altra per , come qui o qui . $i=j$ $i\ne j$

Ma non posso avere senso da questo. Inoltre, non sono nemmeno sicuro che questa sia la causa del mio errore, motivo per cui sto pubblicando tutti i miei calcoli. Spero che qualcuno possa chiarirmi dove mi manca qualcosa o sbaglio.

— Micha
fonte

I collegamenti che hai dato stanno calcolando la derivata relativa all'input, mentre stai calcolando la derivata relativa ai pesi.

— Jenkar,

35

Nota: non sono un esperto di backprop, ma ora dopo aver letto un po ', penso che il seguente avvertimento sia appropriato. Durante la lettura di documenti o libri su reti neurali, non è raro per i derivati da scrivere utilizzando un mix di standard di notazione sommatoria / index , la notazione della matrice , e la notazione multi-index (includere un ibrido tra gli ultimi due per i derivati tensore-tensore ). In genere l'intento è che questo dovrebbe essere "compreso dal contesto", quindi devi stare attento!

Ho notato un paio di incongruenze nella tua derivazione. In realtà non faccio reti neurali, quindi potrebbe non essere corretto quanto segue. Tuttavia, ecco come farei per risolvere il problema.

Innanzitutto, devi tenere conto della somma in e non puoi assumere che ogni termine dipenda solo da un peso. Quindi prendendo il gradiente di rispetto al componente di , abbiamo $E$ $E$ $k$ $z$

E = - \sum_{j} t_{j} \log o_{j} ⟹ \frac{\partial E}{\partial z_{k}} = - \sum_{j} t_{j} \frac{\partial \log o_{j}}{\partial z_{k}}

$E=-\sum_jt_j\log o_j\implies\frac{\partial E}{\partial z_k}=-\sum_jt_j\frac{\partial \log o_j}{\partial z_k}$

Quindi, esprimendo come abbiamo $o_j$

o_{j} = \frac{1}{Ω} e^{z_{j}}, Ω = \sum_{i} e^{z_{i}} ⟹ \log o_{j} = z_{j} - \log Ω

$o_j=\tfrac{1}{\Omega}e^{z_j} \,,\, \Omega=\sum_ie^{z_i} \implies \log o_j=z_j-\log\Omega$

dove

è ildelta di Kronecker. Quindi il gradiente del denominatore del softmax è

\frac{\partial \log o_{j}}{\partial z_{k}} = δ_{j k} - \frac{1}{Ω} \frac{\partial Ω}{\partial z_{k}}

$\frac{\partial \log o_j}{\partial z_k}=\delta_{jk}-\frac{1}{\Omega}\frac{\partial\Omega}{\partial z_k}$

δ_{j k}

$\delta_{jk}$

che dà

\frac{\partial Ω}{\partial z_{k}} = \sum_{i} e^{z_{i}} δ_{i k} = e^{z_{k}}

$\frac{\partial\Omega}{\partial z_k}=\sum_ie^{z_i}\delta_{ik}=e^{z_k}$

oppure, espandendo il registro

\frac{\partial \log o_{j}}{\partial z_{k}} = δ_{j k} - o_{k}

$\frac{\partial \log o_j}{\partial z_k}=\delta_{jk}-o_k$

Nota che la derivata è rispetto a

, uncomponentearbitrariodi

, che dà iltermine

(

solo quando

).

\frac{\partial o_{j}}{\partial z_{k}} = o_{j} (δ_{j k} - o_{k})

$\frac{\partial o_j}{\partial z_k}=o_j(\delta_{jk}-o_k)$

z_{k}

$z_k$

z

$z$

δ_{j k}

$\delta_{jk}$

= 1

$=1$

k = j

$k=j$

Quindi il gradiente di rispetto a è quindi $E$ $z$ dove è costante (per un datovettore).

\frac{\partial E}{\partial z_{k}} = \sum_{j} t_{j} (o_{k} - δ_{j k}) = o_{k} (\sum_{j} t_{j}) - t_{k} ⟹ \frac{\partial E}{\partial z_{k}} = o_{k} τ - t_{k}

$\frac{\partial E}{\partial z_k}=\sum_jt_j(o_k-\delta_{jk})=o_k\left(\sum_jt_j\right)-t_k \implies \frac{\partial E}{\partial z_k}=o_k\tau-t_k$

τ = \sum_{j} t_{j}

$\tau=\sum_jt_j$

t

$t$

Questo dimostra una prima differenza dal risultato: la non è più si moltiplica . Nota che nel caso tipico in cui è "one-hot" abbiamo (come indicato nel tuo primo link). $t_k$ $o_k$ $t$ $\tau=1$

Una seconda incoerenza, se ho capito bene, è che la " " che viene immessa in sembra improbabile che sia la " " che viene emessa dal softmax. Penserei che abbia più senso che questo sia in realtà "più indietro" nell'architettura di rete? $o$ $z$ $o$

Chiamando questo vettore , abbiamo quindi $y$

z_{k} = \sum_{i} w_{i k} y_{i} + b_{k} ⟹ \frac{\partial z_{k}}{\partial w_{p q}} = \sum_{i} y_{i} \frac{\partial w_{i k}}{\partial w_{p q}} = \sum_{i} y_{i} δ_{i p} δ_{k q} = δ_{k q} y_{p}

$z_k=\sum_iw_{ik}y_i+b_k \implies \frac{\partial z_k}{\partial w_{pq}}=\sum_iy_i\frac{\partial w_{ik}}{\partial w_{pq}}=\sum_iy_i\delta_{ip}\delta_{kq}=\delta_{kq}y_p$

Infine, per ottenere il gradiente di rispetto alla matrice di peso , usiamo la regola della catena $E$ $w$ dà l'espressione finale (assumendo unacalda, cioè)

\frac{\partial E}{\partial w_{p q}} = \sum_{k} \frac{\partial E}{\partial z_{k}} \frac{\partial z_{k}}{\partial w_{p q}} = \sum_{k} (o_{k} τ - t_{k}) δ_{k q} y_{p} = y_{p} (o_{q} τ - t_{q})

$\frac{\partial E}{\partial w_{pq}}=\sum_k\frac{\partial E}{\partial z_k}\frac{\partial z_k}{\partial w_{pq}}=\sum_k(o_k\tau-t_k)\delta_{kq}y_p=y_p(o_q\tau-t_q)$

t

$t$

τ = 1

$\tau=1$

dove

è l'ingresso al livello più basso (del tuo esempio).

\frac{\partial E}{\partial w_{io j}} = y_{io} (o_{j} - t_{j})

$\frac{\partial E}{\partial w_{ij}}=y_i(o_j-t_j)$

y

$y$

Quindi questo mostra una seconda differenza rispetto al tuo risultato: la " " dovrebbe presumibilmente essere dal livello sotto , che chiamo , piuttosto che dal livello sopra (che è ). $o_i$ $z$ $y$ $z$ $o$

Speriamo che questo aiuti. Questo risultato sembra più coerente?

Aggiornamento: in risposta a una query dell'OP nei commenti, ecco un'espansione del primo passo. Innanzitutto, nota che la regola della catena vettoriale richiede somme (vedi qui ). In secondo luogo, per essere certi di ottenere tutti i componenti del gradiente, è necessario introdurre sempre una nuova lettera di indice per il componente nel denominatore della derivata parziale. Quindi per scrivere completamente il gradiente con la regola della catena piena, abbiamo e
$\frac{\partial E}{\partial w_{p q}} = \underset{io}{Σ} \frac{\partial E}{\partial o_{io}} \frac{\partial o_{io}}{\partial w_{p q}}$ $\frac{\partial E}{\partial w_{pq}}=\sum_i \frac{\partial E}{\partial o_i}\frac{\partial o_i}{\partial w_{pq}}$ così $\frac{\partial o_{io}}{\partial w_{p q}} = \underset{K}{Σ} \frac{\partial o_{io}}{\partial z_{K}} \frac{\partial z_{K}}{\partial w_{p q}}$ $\frac{\partial o_i}{\partial w_{pq}}=\sum_k \frac{\partial o_i}{\partial z_k}\frac{\partial z_k}{\partial w_{pq}}$ In pratica si riducono le somme complete, poiché si ottengono moltitermini. Sebbene implichi molte sommazioni e sottoscrizioni forse "extra", l'utilizzo della regola a catena intera ti garantirà sempre il risultato corretto. $\frac{\partial E}{\partial w_{p q}} = \underset{io}{Σ} [\frac{\partial E}{\partial o_{io}} (\underset{K}{Σ} \frac{\partial o_{io}}{\partial z_{K}} \frac{\partial z_{K}}{\partial w_{p q}})]$ $\frac{\partial E}{\partial w_{pq}}=\sum_i \left[ \frac{\partial E}{\partial o_i}\left(\sum_k \frac{\partial o_i}{\partial z_k}\frac{\partial z_k}{\partial w_{pq}}\right) \right]$ $\delta_{ab}$

— GeoMatt22
fonte

Non sono sicuro di come la comunità "Backprop / AutoDiff" risolva questi problemi, ma ogni volta che provo a prendere scorciatoie, sono responsabile di commettere errori. Quindi finisco per fare come qui, scrivendo tutto in termini di sommatoria con sottoscrizione completa e introducendo sempre nuovi sottoscritti per ogni derivata. (Simile alla mia risposta qui ... Spero di dare almeno risultati corretti alla fine!)

— GeoMatt22

Personalmente trovo che annotare tutto sia molto più facile da seguire. I risultati mi sembrano corretti.

— Jenkar,

Anche se sto ancora cercando di comprendere appieno tutti i tuoi passaggi, ho ottenuto alcune informazioni preziose che mi hanno aiutato con il quadro generale. Immagino di dover leggere di più sull'argomento delle derivazioni e delle somme. Ma prendendo il tuo consiglio per tener conto della sommatoria in E, ho pensato a questo:

— micha,

o_{j_{1}} = \frac{e^{z_{j_{1}}}}{Ω}

$o_{j_1}=\frac{e^{z_{j_1}}}{\Omega}$

o_{j_{1}} = \frac{e^{z_{j_{1}}}}{Ω}

$o_{j_1}=\frac{e^{z_{j_1}}}{\Omega}$

Ω = e^{z_{j_{1}}} + e^{z_{j_{2}}}

$\Omega=e^{z_{j_1}}+e^{z_{j_2}}$

E = - (t_{1} l o g o_{j_{1}} + t_{2} l o g o_{j_{2}}) = - (t_{1} (z_{j_{1}} - l o g (Ω)) + t_{2} (z_{j_{2}} - l o g (Ω)))

$E=-(t_1 log o_{j_1}+t_2 log o_{j_2})=-(t_1(z_{j_1}-log(\Omega))+t_2(z_{j_2}-log(\Omega)))$

\frac{\partial E}{\partial (z_{j_{1}}} = - (t_{1} - t_{1} \frac{e^{z_{j_{1}}}}{Ω} - t_{2} \frac{e^{z_{j_{2}}}}{Ω}) = - t_{1} + o_{j_{1}} (t_{1} + t_{2})

$\frac{\partial E}{\partial (z_{j_1}}=-(t_1-t_1 \frac{e^{z_{j_1}}}{\Omega}-t_2 \frac{e^{z_{j_2}}}{\Omega})=-t_1+o_{j_1}(t_1+t_2)$

\frac{\partial E}{\partial w_{i j}} = \frac{\partial E}{\partial o_{j}} \frac{\partial o_{j}}{\partial z_{j}} \frac{\partial z_{j}}{\partial w_{i j}}

$\frac{\partial E} {\partial w_{ij}}=\frac{\partial E} {\partial o_j} \frac{\partial o_j} {\partial z_{j}} \frac{\partial z_j} {\partial w_{ij}}$

\frac{\partial E}{\partial w_{i j}} = \frac{\partial E}{\partial z_{j}} \frac{\partial z_{j}}{\partial w_{i j}}

$\frac{\partial E} {\partial w_{ij}}=\frac{\partial E} {\partial z_{j}} \frac{\partial z_j} {\partial w_{ij}}$

\partial o_{j}

$\partial o_j$

12

Mentre la risposta di @ GeoMatt22 è corretta, personalmente l'ho trovato molto utile per ridurre il problema a un esempio di giocattolo e disegnare un'immagine:

$h$ $w$ $\mathbf{t}$

L = - t_{1} \log o_{1} - t_{2} \log o_{2}

$L=-t_1\log o_1 -t_2\log o_2$

o_{1} = \frac{\exp (y_{1})}{\exp (y_{1}) + \exp (y_{2})}

$o_1 = \frac{\exp(y_1)}{\exp(y_1) + \exp(y_2)}$

o_{2} = \frac{\exp (y_{2})}{\exp (y_{1}) + \exp (y_{2})}

$o_2 = \frac{\exp(y_2)}{\exp(y_1) + \exp(y_2)}$

y_{1} = w_{11} h_{1} + w_{21} h_{2} + w_{31} h_{3}

$y_1 = w_{11}h_1 + w_{21}h_2 + w_{31}h_3$

y_{2} = w_{12} h_{1} + w_{22} h_{2} + w_{32} h_{3}

$y_2 = w_{12}h_1 + w_{22}h_2 + w_{32}h_3$

Say I want to calculate the derivative of the loss with respect to $w_{21}$ . I can just use my picture to trace back the path from the loss to the weight I'm interested in (removed the second column of $w$ 's for clarity):

Then, I can just calculate the desired derivatives. Note that there are two paths through $y_1$ that lead to $w_{21}$ , so I need to sum the derivatives that go through each of them.

\frac{\partial L}{\partial o_{1}} = - \frac{t_{1}}{o_{1}}

$\frac{\partial L}{\partial o_1} = -\frac{t_1}{o_1}$

\frac{\partial L}{\partial o_{2}} = - \frac{t_{2}}{o_{2}}

$\frac{\partial L}{\partial o_2} = -\frac{t_2}{o_2}$

\frac{\partial o_{1}}{\partial y_{1}} = \frac{\exp (y_{1})}{\exp (y_{1}) + \exp (y_{2})} - {(\frac{\exp (y_{1})}{\exp (y_{1}) + \exp (y_{2})})}^{2} = o_{1} (1 - o_{1})

$\frac{\partial o_1}{\partial y_1} = \frac{\exp(y_1)}{\exp(y_1) + \exp(y_2)} - \left(\frac{\exp(y_1)}{\exp(y_1) + \exp(y_2)}\right)^2 = o_1(1 - o_1)$

\frac{\partial o_{2}}{\partial y_{1}} = \frac{- \exp (y_{2}) \exp (y_{1})}{(\exp (y_{1}) + \exp (y_{2}))^{2}} = - o_{2} o_{1}

$\frac{\partial o_2}{\partial y_1} = \frac{-\exp(y_2)\exp(y_1)}{(\exp(y_1) + \exp(y_2))^2} = -o_2o_1$

\frac{\partial y_{1}}{\partial w_{21}} = h_{2}

$\frac{\partial y_1}{\partial w_{21}} = h_2$

Finally, putting the chain rule together:

\begin{aligned} \frac{\partial L}{\partial w_{21}} & = \frac{\partial L}{\partial o_{1}} \frac{\partial o_{1}}{\partial y_{1}} \frac{\partial y_{1}}{\partial w_{21}} + \frac{\partial L}{\partial o_{2}} \frac{\partial o_{2}}{\partial y_{1}} \frac{\partial y_{1}}{\partial w_{21}} \\ = \frac{- t_{1}}{o_{1}} [o_{1} (1 - o_{1})] h_{2} + \frac{- t_{2}}{o_{2}} (- o_{2} o_{1}) h_{2} \\ = h_{2} (t_{2} o_{1} - t_{1} + t_{1} o_{1}) \\ = h_{2} (o_{1} (t_{1} + t_{2}) - t_{1}) \\ = h_{2} (o_{1} - t_{1}) \end{aligned}

$\begin{align} \frac{\partial L}{\partial w_{21}} &= \frac{\partial L}{\partial o_1}\frac{\partial o_1}{\partial y_1}\frac{\partial y_1}{\partial w_{21}} + \frac{\partial L}{\partial o_2}\frac{\partial o_2}{\partial y_1}\frac{\partial y_1}{\partial w_{21}}\\ &= \frac{-t_1}{o_1}[o_1(1 - o_1)]h_2 + \frac{-t_2}{o_2}(-o_2 o_1)h_2\\ &= h_2(t_2 o_1 - t_1 + t_1 o_1)\\ &= h_2(o_1(t_1 + t_2) - t_1)\\ &= h_2(o_1 - t_1) \end{align}$

Note that in the last step, $t_1 + t_2 = 1$ because the vector $\mathbf{t}$ is a one-hot vector.

— Vivek Subramanian
fonte

Questo è ciò che finalmente mi ha chiarito! Spiegazione eccellente ed elegante !!!!

— SantoshGupta7,

2

I’m glad you both enjoyed and benefited from reading my post! It was also helpful for me to write it out and explain it.

— Vivek Subramanian

@VivekSubramanian should it be

= \frac{- t_{1}}{o_{1}} [o_{1} (1 - o_{1})] h_{2} + \frac{- t_{2}}{o_{2}} (- o_{2} o_{1}) h_{2}

$= \frac{-t_1}{o_1}[o_1(1 - o_1)]h_2 + \frac{-t_2}{o_2}(-o_2 o_1)h_2\\$ instead ?

— koryakinp

Hai ragione - era un errore di battitura! Farò il cambiamento.

— Vivek Subramanian

La cosa che non capisco qui è che assegni anche logit (punteggi non scalati) ad alcuni neuroni. (o è logits softmax (previsioni) e y è logits nel tuo caso). Tuttavia, questo non è il caso normalmente, non è vero? Guarda questa immagine (o_out1 è previsione e o_in1 è logit) quindi come è possibile in questo caso come trovare la derivata parziale di o2 rispetto a y1?

— ARAT

6

Al posto del $\{o_i\},\,$ Voglio una lettera la cui maiuscola è visivamente distinta dalla sua minuscola. Quindi lasciami sostituire $\{y_i\}$ . Inoltre, usiamo la variabile $\{p_i\}$ designare il $\{o_i\}$ dal livello precedente.

Permettere $Y$ essere la matrice diagonale la cui diagonale è uguale al vettore $y$ , cioè

Y = D io un' g (y)

$Y={\rm Diag}(y)$ Usando questa nuova variabile matrice e il Prodotto interno Frobenius possiamo calcolare il gradiente di

E

$E$ wRT

W

$W$ .

\begin{aligned} z & = W p + b & d z = d W p \\ y & = s o f t m a x (z) & d y = (Y - y y^{T}) d z \\ E & = - t : \log (y) & d E = - t : Y^{- 1} d y \\ d E & = - t : Y^{- 1} (Y - y y^{T}) d z \\ = - t : (I - 1 y^{T}) d z \\ = - t : (I - 1 y^{T}) d W p \\ = (y 1^{T} - I) t p^{T} : d W \\ = ((1^{T} t) y p^{T} - t p^{T}) : d W \\ \frac{\partial E}{\partial W} & = (1^{T} t) y p^{T} - t p^{T} \end{aligned}

$\eqalign{ z &= Wp+b &dz= dWp \cr y &= {\rm softmax}(z) &dy = (Y-yy^T)\,dz \cr E &= -t:\log(y) &dE = -t:Y^{-1}dy \cr\cr dE &= -t:Y^{-1}(Y-yy^T)\,dz \cr &= -t:(I-1y^T)\,dz \cr &= -t:(I-1y^T)\,dW\,p \cr &= (y1^T-I)tp^T:dW \cr &= ((1^Tt)yp^T - tp^T):dW \cr\cr \frac{\partial E}{\partial W} &= (1^Tt)yp^T - tp^T \cr }$

— frank
fonte

6

Here is one of the cleanest and well written notes that I came across the web which explains about "calculation of derivatives in backpropagation algorithm with cross entropy loss function".

— yottabytt
fonte

In the given pdf how did equation 22 become equation 23? As in how did the Summation(k!=i) get a negative sign. Shouldn't it get a positive sign? Like Summation(Fn)(For All K) = Fn(k=i) + Summation(Fn)(k!=i) should be happening according to my understanding.

— faizan

1

Here's a link explaining the softmax and its derivative.

It explains the reason for using i=j and i!=j.

— S. Muhammad H. Mustafa
fonte

It is recommended to provide a minimal, stand-alone answer, in case that link gets broken in the future. Otherwise, this might no longer help other users in the future.

— luchonacho

0

Other answers have provided the correct way of calculating the derivative, but they do not point out where you have gone wrong. In fact, $t_j$ is always 1 in your last equation, cause you have assumed that $o_j$ takes that node of target 1 in your output; $o_j$ of other nodes have different forms of probability function, thus lead to different forms of derivative, so you should now understand why other people have treated $i=j$ and $i\neq j$ differently.

— kuixiong
fonte