Per definizione, Relu è max(0,f(x))
. Poi la sua pendenza è definito come:
1 if x > 0 and 0 if x < 0
.
Questo non significherebbe che il gradiente è sempre 0 (svanisce) quando x <0? Allora perché diciamo che Relu non soffre del problema svanire gradiente?