Ho letto un paio di articoli sull'inizializzazione del kernel e molti articoli menzionano che usano la regolarizzazione L2 del kernel (spesso con ).
Qualcuno fa qualcosa di diverso dall'inizializzare il bias con zero costante e non regolarizzarlo?
Documenti di inizializzazione del kernel
- Mishkin e Matas: tutto ciò che serve è un buon init
- Xavier Glorot e Yoshua Bengio: comprendere la difficoltà di addestrare reti neurali avanzate
- He et al: approfondire i raddrizzatori: superare le prestazioni a livello umano sulla classificazione di ImageNet