Perché la norma batch ha scala e spostamento apprendibili?


13

Per quanto ho capito, la norma batch normalizza tutte le funzionalità di input in un layer in una distribuzione normale di unità, . La media e la varianza sono stimate misurando i loro valori per il mini-batch corrente.N(μ=0,σ=1)μ,σ2

Dopo la normalizzazione, gli input vengono ridimensionati e spostati in base a valori scalari:

x^i=γx^i+β

(Correggimi se sbaglio qui - è qui che inizio a diventare un po 'incerto.)

γ e sono valori scalari e ce n'è una coppia per ciascuno strato standardizzato in batch. Vengono appresi insieme ai pesi usando backprop e SGD.β

La mia domanda è: questi parametri non sono ridondanti perché gli input possono essere ridimensionati e spostati in qualche modo dai pesi nel layer stesso. In altre parole, se

y=Wx^+b

e

x^=γx^+β

poi

y=W'X^+B'

dove e .W'=WγB'=Wβ+B

Allora, qual è il punto di aggiungerli alla rete è già in grado di apprendere la scala e il cambiamento? O sto completamente fraintendendo le cose?

Risposte:


13

C'è una risposta perfetta nel Deep Learning Book, Sezione 8.7.1 :

La normalizzazione della media e della deviazione standard di un'unità può ridurre la potenza espressiva della rete neurale contenente tale unità. Per mantenere la potenza espressiva della rete, è comune sostituire il gruppo di attivazioni di unità nascoste H con γH + β anziché semplicemente H. normalizzato Le variabili γ e β sono parametri appresi che consentono alla nuova variabile di avere qualsiasi mezzo e deviazione standard. A prima vista, questo può sembrare inutile: perché abbiamo impostato la media su 0 e quindi introdotto un parametro che consente di riportarlo a qualsiasi valore arbitrario β?

La risposta è che la nuova parametrizzazione può rappresentare la stessa famiglia di funzioni dell'input della vecchia parametrizzazione, ma la nuova parametrizzazione ha dinamiche di apprendimento diverse. Nella vecchia parametrizzazione, la media di H era determinata da una complessa interazione tra i parametri negli strati inferiori a H. Nella nuova parametrizzazione, la media di γH + β è determinata esclusivamente da β. La nuova parametrizzazione è molto più facile da imparare con la discesa gradiente.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.