Di recente ho letto un articolo di Yann Dauphin et al. Identificazione e attacco del problema del punto di sella nell'ottimizzazione non convessa ad alta dimensione , in cui introducono un interessante algoritmo di discesa chiamato Saddle-Free Newton , che sembra essere esattamente su misura per l'ottimizzazione della rete neurale e non dovrebbe soffrire di rimanere bloccato nei punti di sella come i metodi del primo ordine come SGD vaniglia.
Il documento risale al 2014, quindi non è niente di nuovo, tuttavia, non ho visto che viene utilizzato "in the wild". Perché questo metodo non viene utilizzato? Il calcolo dell'Assia è troppo proibitivo per problemi / reti di dimensioni reali? Esiste anche qualche implementazione open source di questo algoritmo, forse da utilizzare con alcuni dei principali framework di deep learning?
Aggiornamento febbraio 2019: ora è disponibile un'implementazione: https://github.com/dave-fernandes/SaddleFreeOptimizer )