Sembra che l' ottimizzatore Adaptive Moment Estimation (Adam) funzioni quasi sempre meglio (più velocemente e in modo più affidabile raggiungendo un minimo globale) quando si minimizza la funzione di costo nell'addestramento delle reti neurali.
Perché non usare sempre Adam? Perché preoccuparsi di usare RMSProp o gli ottimizzatori del momento?