Somma o media dei gradienti in (mini) gradiente batch decente?


15

Quando ho implementato il gradiente mini batch decente, ho appena calcolato la media dei gradienti di tutti gli esempi nel batch di training. Tuttavia, ho notato che ora il tasso di apprendimento ottimale è molto più elevato rispetto al gradiente online decente. La mia intuizione è che ciò è dovuto al fatto che il gradiente medio è meno rumoroso e potrebbe quindi essere seguito più velocemente. Quindi forse ha anche senso riassumere i gradienti di un batch. I valori possono essere comunque positivi e negativi.

So che è solo un fattore costante che può essere bilanciato usando il tasso di apprendimento. Ma mi chiedo quale sia la definizione su cui gli scienziati hanno concordato in modo da poter riprodurre i risultati dei documenti sulle reti neurali.

In genere si dividono i gradienti sommati di un lotto per la dimensione del lotto?

Risposte:


21

Media.

Esempi: Appunti al corso di Machine Learning di Andrew Ng su Coursera redatto da Alex Holehouse.

Sommando i gradienti dovuti a singoli campioni si ottiene un gradiente molto più uniforme. Maggiore è il lotto, più uniforme sarà il gradiente risultante utilizzato per l'aggiornamento del peso.

Dividere la somma per la dimensione del lotto e prendere il gradiente medio ha l'effetto di:

  1. L'entità del peso non cresce in modo sproporzionato. L'aggiunta della regolarizzazione L2 all'aggiornamento del peso penalizza i valori di peso elevati. Ciò porta spesso a migliori prestazioni di generalizzazione. Prendendo la media, specialmente se le pendenze sembrano puntare nella stessa direzione, evitare che i pesi diventino troppo grandi.
  2. L'entità del gradiente è indipendente dalla dimensione del lotto. Ciò consente il confronto dei pesi di altri esperimenti utilizzando lotti di dimensioni diverse.
  3. Contrastare l'effetto della dimensione del lotto con il tasso di apprendimento può essere numericamente equivalente ma si finisce con un tasso di apprendimento specifico per l'implementazione. Rende difficile comunicare i risultati e l'impostazione sperimentale se le persone non sono in grado di relazionarsi con la scala dei parametri che stai utilizzando e avranno difficoltà a riprodurre l'esperimento.

La media consente una comparabilità più chiara e mantiene le dimensioni del gradiente indipendenti dalla dimensione del lotto. La scelta di una dimensione batch è talvolta limitata dalle risorse computazionali disponibili e si desidera mitigarne l'effetto durante la valutazione del modello.


Il link ora è morto
cdeterman il

1
collegamento aggiornato, non è più possibile collegarsi alle diapositive originali, quindi ho optato per le note ben compilate di Alex Holehouse .
ypx,

Questo tutorial sembra andare per la somma, non sulla media .. deeplearning.net/tutorial/gettingstarted.html#regularization
AD
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.