Stavo leggendo dell'ottimizzatore Adam per Deep Learning e mi sono imbattuto nella frase seguente nel nuovo libro Deep Learning di Bengio, Goodfellow e Courville:
Adam è generalmente considerato abbastanza robusto per la scelta dei parametri iper, sebbene il tasso di apprendimento a volte debba essere modificato rispetto al valore predefinito suggerito.
se questo è vero, è un grosso problema perché la ricerca di iperparametri può essere davvero importante (almeno nella mia esperienza) nelle prestazioni statistiche di un sistema di apprendimento profondo. Quindi, la mia domanda è: perché Adam Robust ha parametri così importanti? Specialmente e ?
Ho letto il documento di Adam e non fornisce alcuna spiegazione al motivo per cui funziona con questi parametri o perché è robusto. Lo giustificano altrove?
Inoltre, mentre leggo il documento, sembra che il numero di parametri hanno provato fosse molto piccolo, per solo 2 e per solo 3. Come può essere uno studio empirico approfondito se funziona solo con i parametri 2x3 ?