Quali sono i vantaggi dell'utilizzo di ReLU rispetto a softplus come funzioni di attivazione?


21

Si dice spesso che le unità lineari rettificate (ReLU) hanno sostituito le unità softplus perché sono lineari e più veloci da calcolare.

Softplus ha ancora il vantaggio di indurre la scarsità o è limitato alla ReLU?

Il motivo per cui lo chiedo è che mi chiedo conseguenze negative della pendenza zero della ReLU. Questa proprietà non "intrappola" le unità a zero dove potrebbe essere utile dare loro la possibilità di riattivazione?


hai mai scoperto la risposta a questo?
Charlie Parker,

Risposte:


4

Ho trovato una risposta alla tua domanda nella Sezione 6.3.3 del libro Deep Learning . (Goodfellow et. Al, 2016):

L'uso di softplus è generalmente sconsigliato. ... ci si potrebbe aspettare che abbia un vantaggio rispetto al raddrizzatore a causa della differenziazione ovunque o della saturazione meno completa, ma empiricamente no.

Come riferimento a sostegno di questa affermazione, citano il documento Deep Sparse Rectifier Neural Networks (Glorot et al., 2011).


1
Penso che abbiamo bisogno di ulteriori chiarimenti su "ma empiricamente non lo fa".
nbro,

2

Le ReLU possono infatti essere disattivate permanentemente, in particolare a tassi di apprendimento elevati. Questa è una motivazione dietro le perdite di ReLU e le attivazioni ELU, entrambe con gradiente diverso da zero quasi ovunque.

Leaky ReLU è una funzione lineare a tratti, proprio come per ReLU, così veloce da calcolare. ELU ha il vantaggio rispetto a softmax e ReLU che l'output medio è più vicino allo zero, il che migliora l'apprendimento.


Che cosa significa "quasi ovunque"?
nbro,

1
"quasi ovunque" è un termine tecnico che significa qualcosa del tipo "tranne in alcuni punti infinitamente piccoli". Ad esempio, ReLU che perde non ha alcun gradiente definito su x = 0.
Hugh Perkins,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.