Come dovrebbe essere inizializzato e regolarizzato il bias?


13

Ho letto un paio di articoli sull'inizializzazione del kernel e molti articoli menzionano che usano la regolarizzazione L2 del kernel (spesso con ).λ=0.0001

Qualcuno fa qualcosa di diverso dall'inizializzare il bias con zero costante e non regolarizzarlo?

Documenti di inizializzazione del kernel

Risposte:


15

Dalle note di Stanford CS231N ( http://cs231n.github.io/neural-networks-2/ ):

Inizializzazione dei pregiudizi. È possibile e comune inizializzare i bias su zero, poiché la rottura dell'asimmetria è fornita dai piccoli numeri casuali nei pesi. Per le non linearità di ReLU, ad alcune persone piace usare un piccolo valore costante come 0,01 per tutti i pregiudizi perché questo assicura che tutte le unità ReLU sparino all'inizio e quindi ottengano e propagino un gradiente. Tuttavia, non è chiaro se ciò fornisca un miglioramento consistente (in effetti alcuni risultati sembrano indicare che ciò comporta prestazioni peggiori) ed è più comune utilizzare semplicemente l'inizializzazione di polarizzazione 0.

Negli LSTM è comune inizializzare i bias su 1 - vedere ad esempio http://www.jmlr.org/proceedings/papers/v37/jozefowicz15.pdf .

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.