Se si osserva la documentazione http://keras.io/optimizers/ , nel SGD è presente un parametro per il decadimento. So che questo riduce il tasso di apprendimento nel tempo. Tuttavia, non riesco a capire come funzioni esattamente. È un valore che viene moltiplicato per il tasso di apprendimento in lr = lr * (1 - decay)
modo esponenziale? Inoltre, come posso vedere quale tasso di apprendimento utilizza il mio modello? Quando stampo model.optimizer.lr.get_value()
dopo aver eseguito un adattamento su alcune epoche restituisce il tasso di apprendimento originale anche se ho impostato il decadimento.
Devo anche impostare nesterov = True per usare lo slancio o ci sono solo due diversi tipi di slancio che posso usare. Ad esempio, c'è un punto per farlosgd = SGD(lr = 0.1, decay = 1e-6, momentum = 0.9, nesterov = False)
self.iterations
riferisce al numero di singoli passi SGD, non al numero di epoche, rigt?