Nessun termine di regolarizzazione per unità di polarizzazione nella rete neurale

13

Secondo questo tutorial sull'apprendimento profondo , la riduzione del peso (regolarizzazione) di solito non viene applicata ai termini di errore b perché?

Qual è il significato (intuizione) dietro di esso?

— Harshit
fonte

Penso di aver già visto una domanda molto simile prima, non riesco proprio a trovarla ... Forse dovresti rivedere le domande correlate e trovare la risposta allora. Inoltre, forse questo potrebbe essere in qualche modo utile.

— Richard Hardy,

13

L'overfitting di solito richiede che l'output del modello sia sensibile alle piccole variazioni dei dati di input (cioè per interpolare esattamente i valori target, si tende ad avere bisogno di molta curvatura nella funzione adattata). I parametri di polarizzazione non contribuiscono alla curvatura del modello, quindi di solito ha poco senso regolarizzarli.

— Dikran Marsupial
fonte

5

La motivazione dietro L2 (o L1) è che restringendo i pesi, vincolando la rete, è meno probabile che ci si allinei. Non ha molto senso limitare i pesi dei pregiudizi poiché i pregiudizi sono fissi (ad es. B = 1), quindi funzionano come le intercettazioni dei neuroni, il che ha senso avere una maggiore flessibilità.

— Ramalho
fonte

1

Vorrei aggiungere che il termine bias è spesso inizializzato con una media 1piuttosto che con 0, quindi potremmo voler regolarizzarlo in modo da non allontanarci troppo da un valore costante 1come fare 1/2*(bias-1)^2piuttosto che fare 1/2*(bias)^2.

Forse -1potrebbe essere utile sostituire la parte con una sottrazione alla media dei bias, forse una media per strato o generale. Eppure questa è solo un'ipotesi che sto facendo (circa la sottostrazione media).

Tutto dipende anche dalla funzione di attivazione. Ad esempio: i sigmoidi potrebbero essere cattivi qui per i gradienti di fuga se i bias sono regolarizzati su offset costanti elevati.

— Guillaume Chevalier
fonte

0

Il tutorial dice "l'applicazione della riduzione del peso alle unità di polarizzazione di solito fa solo una piccola differenza per la rete finale", quindi se non aiuta, puoi smettere di farlo per eliminare un iperparametro. Se ritieni che la regolarizzazione dell'offset sia di aiuto nella tua configurazione, convalida incrociata; tentar non nuoce.

— Emre
fonte