La normalizzazione in lotti è descritta in questo documento come una normalizzazione dell'input in una funzione di attivazione con variabili di scala e spostamento e . Questo documento descrive principalmente l'uso della funzione di attivazione sigmoid, che ha senso. Tuttavia, mi sembra che alimentare un input dalla distribuzione normalizzata prodotta dalla normalizzazione batch in una funzione di attivazione ReLU di è rischioso se non impara a spostare la maggior parte degli input oltre lo 0 in modo tale che ReLU non stia perdendo le informazioni di input. Vale a dire se l'input per la ReLU fosse solo normalizzato standard, perderemmo molte delle nostre informazioni al di sotto di 0. Esistono garanzie o inizializzazioni diche garantirà che non perdiamo queste informazioni? Mi sto perdendo qualcosa su come funzionano le operazioni di BN e ReLU?