Ho letto questo:
Per addestrare la nostra rete neurale, inizializzeremo ogni parametro W (l) ijWij (l) e ogni b (l) ibi (l) su un piccolo valore casuale vicino allo zero (diciamo secondo un normale (0, ϵ2) normale (0 , ϵ2) distribuzione per alcuni piccoli ϵϵ, diciamo 0.01)
da Stanford Tutorial di apprendimento profondo al settimo paragrafo dell'Algoritmo di Backpropagation
Quello che non capisco è perché l'inizializzazione del peso o della distorsione dovrebbe essere intorno allo 0 ?