[Nota 5 aprile 2019: una nuova versione del documento è stata aggiornata su arXiv con molti nuovi risultati. Introduciamo anche versioni backtracking di Momentum e NAG e dimostriamo la convergenza con gli stessi presupposti di Backtracking Gradient Descent.
I codici sorgente sono disponibili su GitHub al link: https://github.com/hank-nguyen/MBT-optimizer
Abbiamo migliorato gli algoritmi per l'applicazione a DNN e ottenuto prestazioni migliori rispetto agli algoritmi all'avanguardia come MMT, NAG, Adam, Adamax, Adagrad, ...
La caratteristica più speciale dei nostri algoritmi è che sono automatici, non è necessario eseguire la regolazione manuale dei tassi di apprendimento come pratica comune. La nostra messa a punto automatica è di natura diversa da Adam, Adamax, Adagrad, ... e così via. Maggiori dettagli sono nel documento.
]
Sulla base di risultati molto recenti: nel mio lavoro congiunto in questo documento https://arxiv.org/abs/1808.05160
f
Sulla base di quanto sopra, abbiamo proposto un nuovo metodo di apprendimento profondo che è alla pari degli attuali metodi all'avanguardia e non necessita di una regolazione manuale dei tassi di apprendimento. (In poche parole , l'idea è di correre indietro nel gradiente di discesa per un certo periodo di tempo, fino a quando non si vede che i tassi di apprendimento, che cambiano ad ogni iterazione, diventano stabilizzati. Ci aspettiamo questa stabilizzazione, in particolare in un punto critico che è C ^ 2 ed è non degenerato, a causa del risultato di convergenza di cui ho parlato sopra. A quel punto, si passa al metodo di discesa gradiente standard. Per ulteriori dettagli, consultare la carta citata. Questo metodo può essere applicato anche ad altri algoritmi ottimali .)
PS Per quanto riguarda la tua domanda originale sul metodo di discesa gradiente standard, a mia conoscenza solo nel caso in cui la derivata della mappa sia globalmente Lipschitz e il tasso di apprendimento sia abbastanza piccolo da dimostrare che il metodo di discesa gradiente standard converge. [Se queste condizioni non sono soddisfatte, ci sono semplici contro-esempi che dimostrano che non è possibile alcun risultato di convergenza, vedere l'articolo citato per alcuni.] Nel documento sopra citato, abbiamo sostenuto che a lungo termine il metodo di discesa del gradiente di backtracking diventerà il metodo di discesa gradiente standard, che fornisce una spiegazione del perché il metodo di discesa gradiente standard di solito funziona bene nella pratica.