Motivare le unità di uscita sigmoide nelle reti neurali a partire da probabilità log non normalizzate lineari in e


12

Background: sto studiando il capitolo 6 di Deep Learning di Ian Goodfellow e Yoshua Bengio e Aaron Courville. Nella sezione 6.2.2.2 (pagine 182 di 183 che possono essere visualizzate qui è motivato l'uso di sigmoid per l'output .P(y=1|X)

Per riassumere parte del materiale lasciano

z=wTh+B
un neurone di output prima che venga applicata un'attivazione in cui h è l'output del precedente strato nascosto, w è un vettore di pesi e B è un bias scalare. Il vettore di input è indicato con X (di cui h è una funzione di) e il valore di output è indicato con y=φ(z) dove φ è la funzione sigmoide. Il libro desidera definire una distribuzione di probabilità su y usando il valore z . Dal secondo paragrafo di pagina 183:

Per il momento omettiamo la dipendenza da X per discutere su come definire una distribuzione di probabilità su y usando il valore z . Il sigmoide può essere motivato costruendo una distribuzione di probabilità non normalizzata P~(y) , che non si somma a 1. Possiamo quindi dividere per una costante appropriata per ottenere una distribuzione di probabilità valida. Se si comincia con il presupposto che le probabilità di log normalizzate sono lineari in y e z , possiamo exponentiate avere le probabilità normalizzate. Quindi normalizziamo per vedere che questo produce una distribuzione di Bernoulli controllata da una trasformazione sigmoidale di z:

logP~(y)=yzP~(y)=exp(yz)P(y)=exp(yz)Σy'=01exp(y'z)P(y)=φ((2y-1)z)

Domande: sono confuso su due cose, in particolare la prima:

  1. Da dove viene l'assunto iniziale? Perchè è la probabilità di registro non normalizzato lineare y e z ? Qualcuno può darmi qualche idea su come gli autori hanno iniziato con logP~(y)=yz ?
  2. Come segue l'ultima riga?

Risposte:


8

Esistono due possibili risultati per . È molto importante, perché questa proprietà cambia il significato della moltiplicazione. Esistono due casi possibili:y{0,1}

logP~(y=1)=zlogP~(y=0)=0

Inoltre, è importante notare che la probabilità logaritmica non normalizzata per è costante. Questa proprietà deriva dal presupposto principale. L'applicazione di qualsiasi funzione deterministica al valore costante produrrà un output costante. Questa proprietà semplifica la formula finale quando eseguiremo la normalizzazione su tutte le possibili probabilità, perché dobbiamo solo conoscere solo probabilità non normalizzate per e per è sempre costante. E poiché l'output dalla rete ha una probabilità logaritmica non normalizzata, avremo bisogno di un solo output, poiché un altro è ritenuto costante.y = 1 y = 0y=0y=1y=0

Successivamente, stiamo applicando l'esponenziazione alla probabilità logaritmica non normalizzata al fine di ottenere probabilità non normalizzata.

P~(y=1)=ezP~(y=0)=e0=1

Quindi normalizziamo semplicemente le probabilità dividendo ogni probabilità non normalizzata per la somma di tutte le possibili probabilità non normalizzate.

P(y=1)=ez1+ezP(y=0)=11+ez

Siamo interessati solo a , perché questo è ciò che significa probabilità dalla funzione sigmoide. La funzione ottenuta non appare come sigmoide al primo sguardo, ma sono uguali ed è facile da mostrare.P(y=1)

P(y=1)=eX1+eX=1eX+1eX=11+1eX=11+e-X

All'inizio l'ultima affermazione può essere fonte di confusione, ma è solo un modo per dimostrare che quella funzione di probabilità finale è un sigmoide. Il valore converte in e in (oppure possiamo dire che sarebbe senza modifiche).0 - 1 1 1(2y-1)0-111

P(y)=σ((2y1)z)={σ(z)=11+ez=ez1+ezwhen y=1σ(z)=11+e(z)=11+ezwhen y=0

Come possiamo vedere, è solo il modo di mostrare la relazione tra eP ( y )σP(y)


"Inoltre, è importante notare che la probabilità logaritmica non normalizzata per è costante. Questa proprietà deriva dal presupposto principale." Il presupposto è che abbiamo già deciso che ? y = 1y=0y=1
HBeel

Penso che la mia confusione derivasse dal fatto che il sigmoide dà la probabilità del modello di indipendentemente dall'etichetta effettiva. Grazie! y=1
HBeel,

Non voglio dire di essere di spessore qui ma come è lineare e . Mi aspetterei qualcosa della forma . Mi rendo conto che sul prodotto produrrebbe una somma che mi avvicinerebbe alla linearità ma che non sembra essere diretta da quanto affermato dall'autore. y z a y + b z + c log y zy×zyzun'y+Bz+clogyz
Zebullon,

Vedo, questa è in realtà una domanda interessante. Non ho prestato attenzione a questa affermazione quando ho letto la domanda per la prima volta. Ora mi sembra strano anche per me. Un problema è che y variabile binaria e non sono sicuro di come controllare le proprietà della funzione lineare in queste circostanze. Immagino abbia senso se fai domande separate, forse qualcuno può spiegarti perché è stato scritto in questo modo.
itdxer,

2

Trovo anche questo frammento del libro difficile da seguire, e la risposta di cui sopra di itdxer merita un po 'di tempo per capire anche per qualcuno che non è perfettamente fluente con le probabilità e il pensiero matematico. L'ho fatto comunque leggendo la risposta al contrario, quindi inizia con il sigmoide di z

P(y=1)=ez1+ez=11+e-z

e prova a seguire di nuovo.

logP~(y)=yz

Quindi ha senso il motivo per cui hanno iniziato la spiegazione con yz - è di progettazione, lo stesso del finale

σ((2y-1)z)

per costruzione permette di ottenere -1 per y = 0 e 1 per y = 1, che sono gli unici valori possibili di y sotto i Bernoulli.


0

Ecco una frase più formale che piacerà a coloro che hanno un background teorico-misurativo.

Sia un Bernoulli rv e che denoti la misura , cioè per , e che denoti la sua controparte non normalizzata.P Y y { 0 , 1 } P Y ( y ) = P ( Y = y ) ˜YPYy{0,1}PY(y)=P(Y=y)P~Y

Abbiamo le seguenti implicazioni:

logP~Y(y)=yzP~Y(y)=exp(yz)PY(y)=eyze0z+e1z=eyz1+ezPY(y)=yez1+ez+(1y)11+ezPY(y)=yσ(z)+(1y)σ(z)PY(y)=σ((2y1)z)

L'ultima uguaglianza è un modo intelligente di mappare da a{0,1}{-1,1}

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.