Quando ho implementato il gradiente mini batch decente, ho appena calcolato la media dei gradienti di tutti gli esempi nel batch di training. Tuttavia, ho notato che ora il tasso di apprendimento ottimale è molto più elevato rispetto al gradiente online decente. La mia intuizione è che ciò è dovuto al fatto che il gradiente medio è meno rumoroso e potrebbe quindi essere seguito più velocemente. Quindi forse ha anche senso riassumere i gradienti di un batch. I valori possono essere comunque positivi e negativi.
So che è solo un fattore costante che può essere bilanciato usando il tasso di apprendimento. Ma mi chiedo quale sia la definizione su cui gli scienziati hanno concordato in modo da poter riprodurre i risultati dei documenti sulle reti neurali.
In genere si dividono i gradienti sommati di un lotto per la dimensione del lotto?