Quando si aggiornano i pesi di una rete neurale usando l'algoritmo di backpropagation con un termine di momentum, il tasso di apprendimento dovrebbe essere applicato anche al termine di momentum?
La maggior parte delle informazioni che ho potuto trovare sull'uso della quantità di moto hanno le equazioni simili a queste:
dove è il tasso di apprendimento e μ è il termine di momentum.
se il termine è maggiore del termine α, nella successiva iterazione il Δ W della precedente iterazione avrà un'influenza maggiore sul peso rispetto a quello corrente.
È questo lo scopo del termine momentum? o l'equazione dovrebbe apparire più simile a questa?
vale a dire. ridimensionare tutto in base al tasso di apprendimento?