Background: sto studiando il capitolo 6 di Deep Learning di Ian Goodfellow e Yoshua Bengio e Aaron Courville. Nella sezione 6.2.2.2 (pagine 182 di 183 che possono essere visualizzate qui è motivato l'uso di sigmoid per l'output .
Per riassumere parte del materiale lasciano
Per il momento omettiamo la dipendenza da per discutere su come definire una distribuzione di probabilità su usando il valore . Il sigmoide può essere motivato costruendo una distribuzione di probabilità non normalizzata , che non si somma a 1. Possiamo quindi dividere per una costante appropriata per ottenere una distribuzione di probabilità valida. Se si comincia con il presupposto che le probabilità di log normalizzate sono lineari in e , possiamo exponentiate avere le probabilità normalizzate. Quindi normalizziamo per vedere che questo produce una distribuzione di Bernoulli controllata da una trasformazione sigmoidale di z:
Domande: sono confuso su due cose, in particolare la prima:
- Da dove viene l'assunto iniziale? Perchè è la probabilità di registro non normalizzato lineare e ? Qualcuno può darmi qualche idea su come gli autori hanno iniziato con ?
- Come segue l'ultima riga?