Perdita logistica multinomiale vs (Cross Entropy vs Square Error)

Ho osservato che Caffe (un framework di apprendimento profondo) utilizzava lo strato di perdita di Softmax SoftmaxWithLoss come strato di output per la maggior parte dei campioni di modello .

Per quanto ne so, il livello Softmax Loss è la combinazione di Multinomial Logistic Loss Layer e Softmax Layer .

Dal Caffe, lo dissero

Il calcolo del gradiente dello strato di perdita di Softmax è più numericamente stabile

Tuttavia, questa spiegazione non è la risposta che desidero, la spiegazione è semplicemente confrontare la combinazione di Multinomial Logistic Loss Layer e Softmax Loss layer anziché layer per layer. Ma non confrontare con altri tipi di funzioni di perdita.

Tuttavia, vorrei sapere di più quali sono le differenze / i vantaggi / gli svantaggi di queste 3 funzioni di errore che sono la perdita logistica multinomiale , l' entropia incrociata (CE) e l' errore quadrato (SE) nella prospettiva dell'apprendimento supervisionato? Qualche articolo di supporto?

— karfai
fonte

Solo un suggerimento: suppongo che otterrai una risposta più veloce se aggiungi il tag "caffe" alle tue domande. Anche pubblicarlo su StackOverflow invece che su StackExchange potrebbe dargli più attenzione).

— mcExchange,

La combinazione semplifica il calcolo del gradiente, giusto y-t. willamette.edu/~gorr/classes/cs449/classify.html

— Jingpeng Wu

Risposte:

A mio avviso, la funzione di perdita è la funzione oggettiva che vogliamo che le nostre reti neurali ottimizzino i suoi pesi in base ad essa. Pertanto, è specifico del compito e anche in qualche modo empirico. Per essere chiari, la perdita logistica multinomiale e la perdita di entropia incrociata sono le stesse (si prega di consultare http://ufldl.stanford.edu/wiki/index.php/Softmax_Regression ). La funzione di costo della perdita logistica multinomiale è come questa $J(\theta) = -\frac{1}{m} \left[ \sum_{i=1}^m y^{(i)} \log h_\theta(x^{(i)}) + (1-y^{(i)}) \log (1-h_\theta(x^{(i)})) \right].$

Di solito è usato per problemi di classificazione. L' errore quadrato ha un'equazione come $\frac 1 {2N} \sum_{i=1}^N \| x^1_i - x^2_i \|_2^2.$

Pertanto, viene solitamente utilizzato per ridurre al minimo l'utilizzo di alcuni errori di costruzione.

EDIT: @MartinThoma La formula di perdita multinomiale della logistica sopra è solo per il caso binario, per il caso generale, dovrebbe essere , dove K è il numero di categorie. $J(\theta) = -\left[ \sum_{i=1}^{m} \sum_{k=1}^{K} 1\left\{y^{(i)} = k\right\} \log P(y^{(i)} = k | x^{(i)} ; \theta) \right]$

— beahacker
fonte

In Caffe, MultinomialLogisticLoss è , quindi chi ha torto qui?

\frac{- 1}{N} \sum_{n = 1}^{N} \log (p_{n, l_{n}})

$\frac{-1}{N}\sum_{n=1}^{N}\log(p_{n,l_n})$

— moi,

Non è sbagliato, sono variabili binarie, alla fine, può essere ridotto nella tua formulazione.

y^{i}

$y^i$

— Beahacker,

Pensavo che la perdita logistica multinomail fosse senza il secondo summand, quindi

J (θ) = - \frac{1}{m} [\sum_{i = 1}^{m} y^{(i)} \log h_{θ} (x^{(i)})]

$J(\theta) = - \frac{1}{m} [\sum_{i=1}^m y^{(i)} \log h_\theta(x^{(i)})]$

— Martin Thoma il

@MartinThoma La mia formula è solo per il caso binario, per il caso generale, dovrebbe essere

J (θ) = - [\sum_{i = 1}^{m} \sum_{k = 1}^{K} 1 {y^{(i)} = k} \log P (y^{(i)} = k | x^{(i)}; θ)]

$J(\theta) = -\left[ \sum_{i=1}^{m} \sum_{k=1}^{K} 1\left\{y^{(i)} = k\right\} \log P(y^{(i)} = k | x^{(i)} ; \theta) \right]$

— beahacker

@beahacker Potresti dirmi perché il secondo summand non è incluso nel caso multinominale, come sottolineato da Martin Thoma. Sto cercando di capire perché è fatto così. Almeno potresti indicarmi qualche risorsa da esaminare.

— Nandeesh,

Vorrei sapere di più quali sono le differenze / i vantaggi / gli svantaggi di queste 3 funzioni di errore che sono la perdita logistica multinomiale, l'entropia incrociata (CE) e l'errore quadrato (SE) nella prospettiva dell'apprendimento supervisionato?

La perdita logistica multinomiale è attivamente uguale all'entropia incrociata. Guarda questa funzione (la funzione di costo in softmax ): dove m è il numero del campione, K è il numero della classe.

J (θ) = - \sum_{i = 1}^{m} \sum_{k = 1}^{K} 1 {y^{(i)} = k} \log p (y^{(i)} = k ∣ x^{(i)}; θ)

$J( \theta ) = - \sum^m_{i=1} \sum^K_{k=1} 1 \{ y^{(i)} = k \} \log p(y^{(i)} = k \mid x^{(i)} ; \theta)$

La funzione indicatore ( ) determina se il soffietto è 0 o 1 nella definizione di entropia crociata , che è etichettato come uno caldo nei dati di addestramento, e è la probabilità condizionale della softmax (q (x) come mostrato di seguito). $1 \{ y^{(i)} = k \}$ $p(x)$ $p(y^{(i)} = k \mid x^{(i)} ; \theta)$

- \sum_{x} p (x) \log q (x)

$-\sum_x p(x) \log q(x)$

E MSE è principalmente per la situazione in cui la funzione di collegamento è la funzione di unità (la distribuzione della risposta segue una distribuzione normale), la regressione lineare standard, mentre l'entropia incrociata è normalmente per dove la funzione di collegamento è la funzione logit. Ecco un fantastico confronto a cui puoi fare riferimento.

Qualche articolo di supporto?

Tranne quelli nei link, ti consiglio questo esempio: https://github.com/rasbt/python-machine-learning-book/blob/master/faq/softmax_regression.md

— Lerner Zhang
fonte