Perché ReLU è migliore delle altre funzioni di attivazione

Qui la risposta si riferisce a gradienti che svaniscono ed esplodono che sono stati in sigmoidsimil-funzioni di attivazione ma, immagino, Reluha uno svantaggio ed è il suo valore atteso. non ci sono limiti per l'output di Relue quindi il suo valore atteso non è zero. Ricordo che la popolarità di Reluquella tanhera la più popolare tra gli esperti di machine learning piuttosto che sigmoid. Il motivo era che il valore atteso di tanhera uguale a zero e aiutava l'apprendimento in strati più profondi ad essere più rapido in una rete neurale. Relunon ha questa caratteristica, ma perché funziona così bene se mettiamo da parte il suo vantaggio derivato. Inoltre, immagino che anche il derivato possa essere interessato. Perché le attivazioni (output diRelu) sono coinvolti per il calcolo delle regole di aggiornamento.

— Media
fonte

È comune avere una sorta di normalizzazione (ad es. Normalizzazione batch, normalizzazione layer) insieme a ReLU. Questo regola l'intervallo di uscita.

— ncasas,

@ncasas Ma nel normale CNNnormalizzare l'output di relunon è comune? Almeno non l'ho mai visto.

— Media

Hai ragione, in CNN non molto profonde è normale non avere la normalizzazione in lotti. Hai considerato il ruolo dei valori iniziali di peso? (es. He inizializzazione)

— ncasas,

sì, in realtà stanno impedendo in qualche modo gradienti di sparizione / esplosione, dopo alcune iterazioni le uscite diventano più grandi immagino.

— Media

Il più grande vantaggio di ReLu è infatti la non saturazione del suo gradiente, che accelera notevolmente la convergenza della discesa gradiente stocastica rispetto alle funzioni sigmoide / tanh ( articolo di Krizhevsky et al).

Ma non è l'unico vantaggio. Ecco una discussione degli effetti di scarsità delle attivazioni di ReLu e della regolarizzazione indotta. Un'altra proprietà interessante è che rispetto ai neuroni tanh / sigmoidi che comportano operazioni costose (esponenziali, ecc.), La ReLU può essere implementata semplicemente portando a zero una matrice di attivazioni.

Ma non sono convinto che il grande successo delle moderne reti neurali sia dovuto al solo ReLu . Anche le nuove tecniche di inizializzazione, come l'inizializzazione di Xavier, il dropout e (successivamente) batchnorm hanno avuto un ruolo molto importante. Ad esempio, il famoso AlexNet ha utilizzato ReLu e dropout.

Quindi, per rispondere alla tua domanda: ReLu ha proprietà molto belle, sebbene non ideali . Ma si dimostra davvero se combinato con altre grandi tecniche, che tra l'altro risolvono il problema del centro diverso da zero che hai menzionato.

UPD: L'uscita ReLu non è davvero centrata sullo zero e influisce negativamente sulle prestazioni NN. Ma questo particolare problema può essere affrontato da altre tecniche di regolarizzazione, ad esempio batchnorm, che normalizza il segnale prima dell'attivazione :

Aggiungiamo la trasformazione BN immediatamente prima della non linearità, normalizzando . ... la normalizzazione probabilmente produrrà attivazioni con una distribuzione stabile. $x = Wu+ b$

— Massima
fonte

Avrei dovuto sottolineare questa parte: stavo cercando di dire che ReLu da solo non risolve questo problema. Hai ragione sul fatto che l'output ReLu non è centrato sullo zero e influisce negativamente sulle prestazioni NN, a meno che i pesi non siano regolarizzati. Ma i gradienti saturi danneggiano ancora di più la NN, quindi l'adozione di massa di ReLu è stata un passo avanti nonostante i suoi svantaggi.

— Massimo

potresti dire cosa intendi con pesi regolarizzati? nella risposta e anche la cosa che hai sottolineato.

— Media,

Aggiornato la mia risposta con alcuni dettagli su questo particolare problema

— Maxim

Quello che trovo un po 'confuso, perché non usare semplicemente la funzione identità? Qual è il vantaggio di 0 per i valori negativi?

— Alex,

@Alex id non è una non linearità. È equivalente ad avere solo strati lineari in NN. Vedi questa domanda - stackoverflow.com/q/46659525/712995

— Maxim