Perché non usare sempre la tecnica di ottimizzazione ADAM?


12

Sembra che l' ottimizzatore Adaptive Moment Estimation (Adam) funzioni quasi sempre meglio (più velocemente e in modo più affidabile raggiungendo un minimo globale) quando si minimizza la funzione di costo nell'addestramento delle reti neurali.

Perché non usare sempre Adam? Perché preoccuparsi di usare RMSProp o gli ottimizzatori del momento?


1
Non credo che ci sia un modo rigoroso e formalizzato per supportare entrambe le affermazioni. È tutto puramente empirico, poiché la superficie dell'errore è sconosciuta. Come regola generale, e puramente per esperienza, ADAM fa bene laddove altri falliscono (segmentazione dell'istanza), sebbene non senza inconvenienti (la convergenza non è monotona)
Alex

2
Adam è più veloce a convergere. SGD è più lento ma generalizza meglio. Quindi alla fine tutto dipende dalle tue circostanze particolari.
agcala,

Risposte:



4

Dovresti anche dare un'occhiata a questo post confrontando diversi ottimizzatori di discesa gradiente. Come puoi vedere di seguito, Adam non è chiaramente il miglior ottimizzatore per alcune attività, poiché molti convergono meglio.


Solo per la cronaca: nell'articolo collegato menzionano alcuni dei difetti di ADAM e presentano AMSGrad come soluzione. Tuttavia, concludono che se AMSGrad ha sovraperformato ADAM nelle pratiche non è (al momento in cui scrivo) non conclusivo.
Lus
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.