Innanzitutto alcuni algoritmi convergono anche con ponderazioni iniziali nulle. Un semplice esempio è una rete Perceptron lineare. Naturalmente, molte reti di apprendimento richiedono una ponderazione iniziale casuale (sebbene questa non sia una garanzia di ottenere la risposta più rapida e migliore ).
Le reti neurali utilizzano la propagazione posteriore per apprendere e aggiornare i pesi e il problema è che in questo metodo i pesi convergono all'ottimo locale (costo / perdita minimo locale), non all'ottimale globale.
La ponderazione casuale aiuta la rete a cogliere le opportunità per ciascuna direzione nello spazio disponibile e a migliorarle gradualmente per arrivare a una risposta migliore e non limitarsi a una direzione o risposta.
[L'immagine sotto mostra un esempio unidimensionale di come la convergenza. Data la posizione iniziale, si ottiene un'ottimizzazione locale ma non un'ottimizzazione globale. A dimensioni maggiori, la ponderazione casuale può aumentare le possibilità di trovarsi nel posto giusto o di iniziare meglio, con il risultato di far convergere i pesi verso valori migliori.] [1]
[1]: https://i.stack.imgur.com/2dioT.png [Kalhor, A. (2020). Classificazione e regressione NN. Conferenza.]
Nel caso più semplice, il nuovo peso è il seguente:
W_new = W_old + D_loss
Qui il gradiente della funzione di costo viene aggiunto al peso precedente per ottenere un nuovo peso. Se tutti i pesi precedenti sono uguali, nel passaggio successivo tutti i pesi potrebbero essere uguali. Di conseguenza, in questo caso, da un punto di vista geometrico, la rete neurale è inclinata in una direzione e tutti i pesi sono gli stessi. Ma se i pesi sono diversi, è possibile aggiornare i pesi in base a quantità diverse. (a seconda del fattore di impatto che ogni peso ha sul risultato, influisce sul costo e sugli aggiornamenti dei pesi. Quindi anche un piccolo errore nella ponderazione casuale iniziale può essere risolto).
Questo era un esempio molto semplice, ma mostra l'effetto dell'inizializzazione della ponderazione casuale sull'apprendimento. Ciò consente alla rete neurale di andare in spazi diversi invece di andare da un lato. Di conseguenza, nel processo di apprendimento, vai al meglio di questi spazi