La normalizzazione in lotti e le ReLU sono entrambe soluzioni al problema del gradiente in via di estinzione. Se stiamo usando la normalizzazione in lotti, dovremmo quindi usare i sigmoidi? O ci sono caratteristiche delle ReLU che le rendono utili anche quando si utilizza batchnorm?
Suppongo che la normalizzazione effettuata in batchnorm invierà zero attivazioni negative. Ciò significa che batchnorm risolve il problema "dead ReLU"?
Ma la natura continua dell'abbronzatura e della logistica rimangono interessanti. Se sto usando batchnorm, tanh funzionerà meglio di ReLU?
Sono sicuro che la risposta dipende . Quindi, cosa ha funzionato nella tua esperienza e quali sono le caratteristiche salienti della tua applicazione?