Qui la risposta si riferisce a gradienti che svaniscono ed esplodono che sono stati in sigmoid
simil-funzioni di attivazione ma, immagino, Relu
ha uno svantaggio ed è il suo valore atteso. non ci sono limiti per l'output di Relu
e quindi il suo valore atteso non è zero. Ricordo che la popolarità di Relu
quella tanh
era la più popolare tra gli esperti di machine learning piuttosto che sigmoid
. Il motivo era che il valore atteso di tanh
era uguale a zero e aiutava l'apprendimento in strati più profondi ad essere più rapido in una rete neurale. Relu
non ha questa caratteristica, ma perché funziona così bene se mettiamo da parte il suo vantaggio derivato. Inoltre, immagino che anche il derivato possa essere interessato. Perché le attivazioni (output diRelu
) sono coinvolti per il calcolo delle regole di aggiornamento.
CNN
normalizzare l'output di relu
non è comune? Almeno non l'ho mai visto.