Stavo leggendo il documento di normalizzazione in lotti (BN) (1) e non capivo la necessità di utilizzare le medie mobili per tenere traccia dell'accuratezza del modello e anche se ho accettato che era la cosa giusta da fare, non capisco cosa stanno facendo esattamente.
Per quanto ne so (che ho sbagliato), l'articolo menziona che utilizza le statistiche sulla popolazione anziché il mini-batch, statistiche una volta che il modello ha terminato la formazione. Dopo qualche discussione su stime imparziali (che mi sembrano tangenziali e non capisco perché ne parli) vanno e dicono:
Usando invece le medie mobili, seguiamo l'accuratezza del modello mentre si allena.
Questa è la parte che mi confonde. Perché fanno medie mobili per stimare l'accuratezza del modello e su quale set di dati?
Di solito, ciò che le persone fanno per stimare la generalizzazione del loro modello, tengono semplicemente traccia dell'errore di validazione del loro modello (e potenzialmente interrompono presto la discesa del gradiente per regolarizzarlo). Tuttavia, sembra che la normalizzazione batch stia facendo qualcosa di completamente diverso. Qualcuno può chiarire cosa e perché sta facendo qualcosa di diverso?
1 : Ioffe S. e Szegedy C. (2015),
"Normalizzazione in lotti: accelerare la formazione di reti profonde riducendo lo spostamento della covariata interna",
Atti della 32a Conferenza internazionale sull'apprendimento automatico , Lille, Francia, 2015.
Journal of Machine Learning Research: Volume W&CP 37