Qui la risposta si riferisce a gradienti che svaniscono ed esplodono che sono stati in sigmoidsimil-funzioni di attivazione ma, immagino, Reluha uno svantaggio ed è il suo valore atteso. non ci sono limiti per l'output di Relue quindi il suo valore atteso non è zero. Ricordo che la popolarità di Reluquella tanhera la più popolare tra gli esperti di machine learning piuttosto che sigmoid. Il motivo era che il valore atteso di tanhera uguale a zero e aiutava l'apprendimento in strati più profondi ad essere più rapido in una rete neurale. Relunon ha questa caratteristica, ma perché funziona così bene se mettiamo da parte il suo vantaggio derivato. Inoltre, immagino che anche il derivato possa essere interessato. Perché le attivazioni (output diRelu) sono coinvolti per il calcolo delle regole di aggiornamento.
CNNnormalizzare l'output di relunon è comune? Almeno non l'ho mai visto.