La letteratura sull'apprendimento profondo è piena di trucchi intelligenti con l'uso di tassi di apprendimento non costanti nella discesa del gradiente. Cose come il decadimento esponenziale, RMSprop, Adagrad ecc. Sono facili da implementare e sono disponibili in ogni pacchetto di apprendimento profondo, ma sembrano essere inesistenti al di fuori delle reti neurali. c'è qualche ragione per questo? Se alle persone semplicemente non importa, c'è un motivo per cui non dobbiamo occuparci al di fuori delle reti neurali?