Ho osservato che Caffe (un framework di apprendimento profondo) utilizzava lo strato di perdita di Softmax SoftmaxWithLoss
come strato di output per la maggior parte dei campioni di modello .
Per quanto ne so, il livello Softmax Loss è la combinazione di Multinomial Logistic Loss Layer e Softmax Layer .
Dal Caffe, lo dissero
Il calcolo del gradiente dello strato di perdita di Softmax è più numericamente stabile
Tuttavia, questa spiegazione non è la risposta che desidero, la spiegazione è semplicemente confrontare la combinazione di Multinomial Logistic Loss Layer e Softmax Loss layer anziché layer per layer. Ma non confrontare con altri tipi di funzioni di perdita.
Tuttavia, vorrei sapere di più quali sono le differenze / i vantaggi / gli svantaggi di queste 3 funzioni di errore che sono la perdita logistica multinomiale , l' entropia incrociata (CE) e l' errore quadrato (SE) nella prospettiva dell'apprendimento supervisionato? Qualche articolo di supporto?
y-t
. willamette.edu/~gorr/classes/cs449/classify.html