Quali metodi di ottimizzazione funzionano meglio per gli LSTM?

20

Ho usato theano per sperimentare LSTM e mi chiedevo quali metodi di ottimizzazione (SGD, Adagrad, Adadelta, RMSprop, Adam, ecc.) Funzionino meglio per gli LSTM? Ci sono articoli di ricerca su questo argomento?

Inoltre, la risposta dipende dal tipo di applicazione per cui sto usando LSTM? In tal caso, sto usando LSTM per la classificazione del testo (dove il testo viene prima convertito in vettori di parole).

Infine, le risposte sarebbero le stesse o diverse per gli RNN? Qualsiasi suggerimento per articoli di ricerca o intuizioni personali sarebbe molto apprezzato!

Gli LSTM sembrano essere abbastanza potenti e sono interessato a saperne di più su come utilizzarli al meglio.

— sidro di mele
fonte

7

Ironia della sorte, i migliori ottimizzatori per LSTM sono essi stessi LSTM: https://arxiv.org/abs/1606.04474 Imparare a imparare per discesa gradiente per discesa gradiente.

L'idea di base è quella di utilizzare una rete neurale (in particolare una rete LSTM) per apprendere e insegnare i gradienti della rete originale. Si chiama meta learning.

Questo metodo, mentre è stato proposto da Juergen Schmidhuber nel 2000, solo recentemente ha dimostrato di superare gli altri ottimizzatori nell'allenamento RNN. (vedi la carta originale per una bella grafica)

— Anona112
fonte

Puoi espanderci dicendoci cosa dice il link?

— mdewey,

modificato per il tuo piacere. Poiché la domanda originale era "Quali metodi di ottimizzazione funzionano meglio per gli LSTM?" non "Come funzionano i migliori metodi di ottimizzazione per gli LSTM" Lascio a questo.

— Anona112

4

In generale non ci sono prove chiare su quale metodo di ottimizzazione utilizzare in quale scenario. C'è stata qualche analisi nel comportamento di questi metodi in diversi scenari, ma nulla è conclusivo. Se vuoi immergerti in queste cose, allora ti consiglio: http://papers.nips.cc/paper/5486-identifying-and-attacking-the-saddle-point-problem-in-high-dimensional-non-convex- optimization.pdf

Per fornire almeno in qualche modo una risposta, direi che spesso la configurazione della routine di ottimizzazione è più importante della routine stessa.

Inoltre ti consiglio di consultare le carte per vedere quali tecniche vengono utilizzate. Alex Graves, ad esempio, ha beneficiato dell'uso di RMSprop nella maggior parte delle sue pubblicazioni sulla generazione di sequenze.

— Sjoerd
fonte