Ho usato theano per sperimentare LSTM e mi chiedevo quali metodi di ottimizzazione (SGD, Adagrad, Adadelta, RMSprop, Adam, ecc.) Funzionino meglio per gli LSTM? Ci sono articoli di ricerca su questo argomento?
Inoltre, la risposta dipende dal tipo di applicazione per cui sto usando LSTM? In tal caso, sto usando LSTM per la classificazione del testo (dove il testo viene prima convertito in vettori di parole).
Infine, le risposte sarebbero le stesse o diverse per gli RNN? Qualsiasi suggerimento per articoli di ricerca o intuizioni personali sarebbe molto apprezzato!
Gli LSTM sembrano essere abbastanza potenti e sono interessato a saperne di più su come utilizzarli al meglio.