Cross-Entropy o Log Likelihood nel livello Output


31

Ho letto questa pagina: http://neuralnetworksanddeeplearning.com/chap3.html

e diceva che lo strato di output sigmoideo con entropia incrociata è abbastanza simile allo strato di output softmax con verosimiglianza logaritmica.

cosa succede se utilizzo sigmoid con verosimiglianza log o softmax con entropia incrociata nel livello di output? va bene? perché vedo che c'è solo una piccola differenza nell'equazione tra entropia crociata (eq.57):

C=1nx(ylna+(1y)ln(1a))

e log verosimiglianza (eq.80):

C=1nx(lnayL)

Risposte:


51

La probabilità logaritmica negativa (eq.80) è anche nota come cross-entropia multiclasse (rif: Pattern Recognition e Machine Learning Section 4.3.4), in quanto si tratta in realtà di due diverse interpretazioni della stessa formula.

l'eq.57 è la probabilità logaritmica negativa della distribuzione di Bernoulli, mentre l'eq.80 è la verosimiglianza logaritmica negativa della distribuzione multinomiale con una sola osservazione (una versione multiclasse di Bernoulli).

Per problemi di classificazione binaria, la funzione softmax genera due valori (tra 0 e 1 e somma a 1) per fornire la previsione di ogni classe. Mentre la funzione sigmoide emette un valore (tra 0 e 1) per fornire la previsione di una classe (quindi l'altra classe è 1-p).

Quindi eq.80 non può essere applicato direttamente all'output sigmoid, sebbene sia sostanzialmente la stessa perdita di eq.57.

Vedi anche questa risposta .


Di seguito è fornita una semplice illustrazione della connessione tra (sigmoide + entropia incrociata binaria) e (softmax + entropia incrociata multiclasse) per problemi di classificazione binaria.

Supponiamo di prendere come punto di divisione delle due categorie, per l'output sigmoid che segue,0.5

σ(wx+b)=0.5
wx+b=0
che è il limite di decisione nello spazio delle caratteristiche.

Per l'output di softmax segue quindi rimane lo stesso modello sebbene ci siano il doppio del numero di parametri.

ew1x+b1ew1x+b1+ew2x+b2=0.5
ew1x+b1=ew2x+b2
w1x+b1=w2x+b2
(w1w2)x+(b1b2)=0

I seguenti mostrano i limiti di decisione ottenuti usando questi due metodi, che sono quasi identici.


A quali equazioni ti riferisci? Nel libro, le equazioni sono numerate in modo diverso. Forse è un'edizione specifica del libro? Puoi chiarire questo? Sto guardando il libro users.isr.ist.utl.pt/~wurmd/Livros/school/… , pagina 209 (sezione 4.3.4).
nbro,

@nbro ah scusa per la confusione, intendevo le equazioni nella pagina collegata fornita nella domanda.
dontloo,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.