Per quanto ho capito, la norma batch normalizza tutte le funzionalità di input in un layer in una distribuzione normale di unità, . La media e la varianza sono stimate misurando i loro valori per il mini-batch corrente.
Dopo la normalizzazione, gli input vengono ridimensionati e spostati in base a valori scalari:
(Correggimi se sbaglio qui - è qui che inizio a diventare un po 'incerto.)
e sono valori scalari e ce n'è una coppia per ciascuno strato standardizzato in batch. Vengono appresi insieme ai pesi usando backprop e SGD.
La mia domanda è: questi parametri non sono ridondanti perché gli input possono essere ridimensionati e spostati in qualche modo dai pesi nel layer stesso. In altre parole, se
e
poi
dove e .
Allora, qual è il punto di aggiungerli alla rete è già in grado di apprendere la scala e il cambiamento? O sto completamente fraintendendo le cose?