Perché non usare sempre la tecnica di ottimizzazione ADAM?

12

Sembra che l' ottimizzatore Adaptive Moment Estimation (Adam) funzioni quasi sempre meglio (più velocemente e in modo più affidabile raggiungendo un minimo globale) quando si minimizza la funzione di costo nell'addestramento delle reti neurali.

Perché non usare sempre Adam? Perché preoccuparsi di usare RMSProp o gli ottimizzatori del momento?

neural-network optimization

— PyRsquared
fonte

1

Non credo che ci sia un modo rigoroso e formalizzato per supportare entrambe le affermazioni. È tutto puramente empirico, poiché la superficie dell'errore è sconosciuta. Come regola generale, e puramente per esperienza, ADAM fa bene laddove altri falliscono (segmentazione dell'istanza), sebbene non senza inconvenienti (la convergenza non è monotona)

— Alex

2

Adam è più veloce a convergere. SGD è più lento ma generalizza meglio. Quindi alla fine tutto dipende dalle tue circostanze particolari.

— agcala,

13

Ecco un post sul blog che esamina un articolo in cui si afferma che SGD è un adattatore generalizzato migliore di ADAM. https://shaoanlu.wordpress.com/2017/05/29/sgd-all-which-one-is-the-best-optimizer-dogs-vs-cats-toy-experiment/

C'è spesso un valore nell'usare più di un metodo (un insieme), perché ogni metodo ha un punto debole.

— Christopher Klaus
fonte

4

Dovresti anche dare un'occhiata a questo post confrontando diversi ottimizzatori di discesa gradiente. Come puoi vedere di seguito, Adam non è chiaramente il miglior ottimizzatore per alcune attività, poiché molti convergono meglio.

Solo per la cronaca: nell'articolo collegato menzionano alcuni dei difetti di ADAM e presentano AMSGrad come soluzione. Tuttavia, concludono che se AMSGrad ha sovraperformato ADAM nelle pratiche non è (al momento in cui scrivo) non conclusivo.

— Lus