Diverse definizioni della funzione di perdita di entropia crociata

12

Ho iniziato a conoscere le reti neurali con il tutorial com dot su reti neurali e apprendimento. In particolare nel terzo capitolo c'è una sezione sulla funzione entropia crociata e definisce la perdita di entropia crociata come:

$C = -\frac{1}{n} \sum\limits_x \sum\limits_j (y_j \ln a^L_j + (1-y_j) \ln (1 - a^L_j))$

Tuttavia, leggendo l' introduzione di Tensorflow , la perdita di entropia crociata è definita come:

$C = -\frac{1}{n} \sum\limits_x \sum\limits_j (y_j \ln a^L_j)$ (quando si usano gli stessi simboli di cui sopra)

Quindi, cercando in giro per trovare quello che stava succedendo, ho trovato un'altra serie di note: ( https://cs231n.github.io/linear-classify/#softmax-classifier ) che utilizza una definizione completamente diversa della perdita di entropia crociata, anche se questo tempo per un classificatore softmax piuttosto che per una rete neurale.

Qualcuno può spiegarmi cosa sta succedendo qui? Perché ci sono discrepanze tra l'altro. quali sono le persone che definiscono la perdita di entropia? C'è solo un principio generale?

— Reginald
fonte

Strettamente correlato: stats.stackexchange.com/questions/260505/…

— Sycorax dice

18

Queste tre definizioni sono essenzialmente le stesse.

1) L' introduzione di Tensorflow ,

C = - \frac{1}{n} \sum_{x} \sum_{j} (y_{j} \ln a_{j}) .

$C = -\frac{1}{n} \sum\limits_x\sum\limits_{j} (y_j \ln a_j).$

2) Per le classificazioni binarie , diventa e a causa dei vincoli e , può essere riscritto come che è lo stesso del terzo capitolo . $j=2$

C = - \frac{1}{n} \sum_{x} (y_{1} \ln a_{1} + y_{2} \ln a_{2})

$C = -\frac{1}{n} \sum\limits_x (y_1 \ln a_1 + y_2 \ln a_2)$

\sum_{j} a_{j} = 1

$\sum_ja_j=1$

\sum_{j} y_{j} = 1

$\sum_jy_j=1$

C = - \frac{1}{n} \sum_{x} (y_{1} \ln a_{1} + (1 - y_{1}) \ln (1 - a_{1}))

$C = -\frac{1}{n} \sum\limits_x (y_1 \ln a_1 + (1-y_1) \ln (1-a_1))$

3) Inoltre, se è un vettore a un punto (che è comunemente il caso delle etichette di classificazione) con essendo l'unico elemento diverso da zero, la perdita di entropia crociata del campione corrispondente è $y$ $y_k$

C_{x} = - \sum_{j} (y_{j} \ln a_{j}) = - (0 + 0 + . . . + y_{k} \ln a_{k}) = - \ln a_{k} .

$C_x=-\sum\limits_{j} (y_j \ln a_j)=-(0+0+...+y_k\ln a_k)=-\ln a_k.$

Nelle note cs231 , la perdita di entropia crociata di un campione è data insieme alla normalizzazione del softmax come

C_{x} = - \ln (a_{k}) = - \ln (\frac{e^{f_{k}}}{\sum_{j} e^{f_{j}}}) .

$C_x=-\ln(a_k)=-\ln\left(\frac{e^{f_k}}{\sum_je^{f_j}}\right).$

— dontloo
fonte

0

Nel terzo capitolo , l'equazione (63) è l'entropia incrociata applicata a più sigmoidi (che non possono essere sommati a 1) mentre nell'intro di Tensoflow l'entropia incrociata viene calcolata su uno strato di output di softmax.

Come spiegato da dontloo, entrambe le formule sono essenzialmente equivalenti per due classi, ma non è quando si considerano più di due classi. Softmax ha senso per la multiclasse con classi esclusive ( cioè quando esiste una sola etichetta per campione, che consente la codifica a caldo di etichette) mentre i sigmoidi (multipli) possono essere usati per descrivere un problema multilabel (cioè con campioni che possono essere positivi per diverse classi).

Vedi anche questa altra risposta a Dontloo .

— xiawi
fonte