Come funziona il termine momentum per l'algoritmo di backpropagation?

Quando si aggiornano i pesi di una rete neurale usando l'algoritmo di backpropagation con un termine di momentum, il tasso di apprendimento dovrebbe essere applicato anche al termine di momentum?

La maggior parte delle informazioni che ho potuto trovare sull'uso della quantità di moto hanno le equazioni simili a queste:

$W_{i}' = W_{i} - \alpha \Delta W_i + \mu \Delta W_{i-1}$

dove è il tasso di apprendimento e è il termine di momentum. $\alpha$ $\mu$

se il termine è maggiore del termine nella successiva iterazione il della precedente iterazione avrà un'influenza maggiore sul peso rispetto a quello corrente. $\mu$ $\alpha$ $\Delta W$

È questo lo scopo del termine momentum? o l'equazione dovrebbe apparire più simile a questa?

$W_{i}' = W_{i} - \alpha( \Delta W_i + \mu \Delta W_{i-1})$

vale a dire. ridimensionare tutto in base al tasso di apprendimento?

machine-learning neural-networks

— guskenny83
fonte

$n$ $W_k$ $i$ $W_k$

$\Delta W_k(i) = -\alpha \frac{\partial E}{\partial W_k} + \mu \Delta W_k(i-1)$ $\frac{\partial E}{\partial W_k}$ $W_k$

L'introduzione della quantità di moto consente l'attenuazione delle oscillazioni nella discesa del gradiente. L'idea geometrica alla base di questa idea può probabilmente essere meglio compresa in termini di un'analisi di eigenspace nel caso lineare. Se il rapporto tra autovalore minimo e massimo è elevato, l'esecuzione di una discesa gradiente è lenta anche se il tasso di apprendimento è elevato a causa del condizionamento della matrice. Lo slancio introduce un certo bilanciamento nell'aggiornamento tra gli autovettori associati agli autovalori più bassi e più grandi.

Per maggiori dettagli mi riferisco a

http://page.mi.fu-berlin.de/rojas/neural/chapter/K8.pdf

— nico
fonte

Cosa significa sottosella?

— David Richerby,

Δ W_{k}

$\Delta W_k$

μ W_{k} (i - 1)

$\mu W_k(i-1)$

μ Δ W_{k} (i - 1)

$\mu \Delta W_k(i-1)$

Δ W_{k} (i - 1)

$\Delta W_k(i-1)$

Cosa intendi per "variazione della perdita"? È qualcosa del tipo "variazione dell'errore"?

— starbeamrainbowlabs

Non significa altro che la derivata dell'errore rispetto ai pesi.

— nico,