Si dice spesso che le unità lineari rettificate (ReLU) hanno sostituito le unità softplus perché sono lineari e più veloci da calcolare.
Softplus ha ancora il vantaggio di indurre la scarsità o è limitato alla ReLU?
Il motivo per cui lo chiedo è che mi chiedo conseguenze negative della pendenza zero della ReLU. Questa proprietà non "intrappola" le unità a zero dove potrebbe essere utile dare loro la possibilità di riattivazione?