Come dovrebbe essere inizializzato e regolarizzato il bias?

Ho letto un paio di articoli sull'inizializzazione del kernel e molti articoli menzionano che usano la regolarizzazione L2 del kernel (spesso con ). $\lambda = 0.0001$

Qualcuno fa qualcosa di diverso dall'inizializzare il bias con zero costante e non regolarizzarlo?

Documenti di inizializzazione del kernel

Mishkin e Matas: tutto ciò che serve è un buon init
Xavier Glorot e Yoshua Bengio: comprendere la difficoltà di addestrare reti neurali avanzate
He et al: approfondire i raddrizzatori: superare le prestazioni a livello umano sulla classificazione di ImageNet

neural-network

— Martin Thoma
fonte

Dalle note di Stanford CS231N ( http://cs231n.github.io/neural-networks-2/ ):

Inizializzazione dei pregiudizi. È possibile e comune inizializzare i bias su zero, poiché la rottura dell'asimmetria è fornita dai piccoli numeri casuali nei pesi. Per le non linearità di ReLU, ad alcune persone piace usare un piccolo valore costante come 0,01 per tutti i pregiudizi perché questo assicura che tutte le unità ReLU sparino all'inizio e quindi ottengano e propagino un gradiente. Tuttavia, non è chiaro se ciò fornisca un miglioramento consistente (in effetti alcuni risultati sembrano indicare che ciò comporta prestazioni peggiori) ed è più comune utilizzare semplicemente l'inizializzazione di polarizzazione 0.

Negli LSTM è comune inizializzare i bias su 1 - vedere ad esempio http://www.jmlr.org/proceedings/papers/v37/jozefowicz15.pdf .

— Lukas Biewald
fonte