Stavo leggendo il documento di normalizzazione in lotti [1] e aveva una sezione in cui è riportato un esempio, cercando di mostrare perché la normalizzazione deve essere eseguita con attenzione. Sinceramente, non riesco a capire come funziona l'esempio e sono sinceramente molto curioso di capire il loro lavoro il più possibile. Prima lasciami citare qui:
Ad esempio, si consideri un livello con l'ingresso u che aggiunge il bias dotto b, e normalizza il risultato sottraendo la media dell'attivazione calcolato su dati di dove x = u + b , X = { x 1 . . . N } è l'insieme di valori di x sull'insieme di addestramento ed E [ x ] = ∑ N i = 1 x i. Se un gradiente di discesa del gradiente ignora la dipendenza di su b , aggiornerà b ← b + Δ > b , dove Δ b ∝ - ∂ l . Quindiu+(b+Δb)-E[u+(b+Δb)]=u+b-E[u+b]. Pertanto, la combinazione dell'aggiornamentobe lasuccessiva modifica della normalizzazione non hanno portato a nessuna modifica nell'output del layer né, di conseguenza, alla perdita.
Penso di aver capito il messaggio, che se non si esegue correttamente la normalizzazione, può essere negativo. Non capisco come nell'esempio che usano sia questo.
Sono consapevole che è difficile aiutare qualcuno se non sono più specifici su ciò che li confonde, quindi fornirò nella sezione successiva, le cose che mi confondono sulla loro spiegazione.
Penso che la maggior parte delle mie confusioni potrebbero essere notazionali, quindi chiarirò.
In primo luogo, penso che una delle cose che mi confonde molto sia cosa significhi per gli autori avere un'unità in rete e cosa sia un'attivazione. Di solito, penso a un'attivazione come:
Inoltre, penso che una delle prime cose che mi confonda (a causa del motivo precedente) sia lo scenario che stanno cercando di spiegare. Dice:
e poi lo passa all'algoritmo di retro-propagazione. O almeno questo è ciò che avrebbe senso per me.
Un'altra cosa che mi confonde è:
Non sono sicuro che questa sia la giusta comprensione, ma ho riflettuto sul loro esempio. Sembra che il loro esempio non abbia un'unità di attivazione non lineare (usa l'identità) e stanno parlando solo del primo livello di input? Dal momento che hanno tralasciato molti dettagli e la notazione non è molto chiara, non posso dedurre esattamente di cosa stiano parlando. Qualcuno sa come esprimere questo esempio con una notazione che esprime cosa sta succedendo ad ogni livello? Qualcuno capisce cosa sta realmente succedendo con quell'esempio e vuole condividere la sua saggezza con me?
[1]: Ioffe S. e Szegedy C. (2015),
"Normalizzazione in lotti: accelerare la formazione in rete profonda riducendo lo spostamento della covariata interna",
Atti della 32a Conferenza internazionale sull'apprendimento automatico , Lille, Francia, 2015.
Journal of Machine Learning Ricerca: volume W&CP 37