Nell'impostazione generale dell'algoritmo di discesa gradiente, abbiamo dove x n è il punto corrente, η è la dimensione del gradino e g r a d i e n t x n è il gradiente valutato in x n .
Ho visto in alcuni algoritmi, le persone usano il gradiente normalizzato anziché il gradiente . Volevo sapere qual è la differenza nell'uso del gradiente normalizzato e semplicemente del gradiente .