Secondo questo tutorial sull'apprendimento profondo , la riduzione del peso (regolarizzazione) di solito non viene applicata ai termini di errore b perché?
Qual è il significato (intuizione) dietro di esso?
Secondo questo tutorial sull'apprendimento profondo , la riduzione del peso (regolarizzazione) di solito non viene applicata ai termini di errore b perché?
Qual è il significato (intuizione) dietro di esso?
Risposte:
L'overfitting di solito richiede che l'output del modello sia sensibile alle piccole variazioni dei dati di input (cioè per interpolare esattamente i valori target, si tende ad avere bisogno di molta curvatura nella funzione adattata). I parametri di polarizzazione non contribuiscono alla curvatura del modello, quindi di solito ha poco senso regolarizzarli.
La motivazione dietro L2 (o L1) è che restringendo i pesi, vincolando la rete, è meno probabile che ci si allinei. Non ha molto senso limitare i pesi dei pregiudizi poiché i pregiudizi sono fissi (ad es. B = 1), quindi funzionano come le intercettazioni dei neuroni, il che ha senso avere una maggiore flessibilità.
Vorrei aggiungere che il termine bias è spesso inizializzato con una media 1
piuttosto che con 0
, quindi potremmo voler regolarizzarlo in modo da non allontanarci troppo da un valore costante 1
come fare 1/2*(bias-1)^2
piuttosto che fare 1/2*(bias)^2
.
Forse -1
potrebbe essere utile sostituire la parte con una sottrazione alla media dei bias, forse una media per strato o generale. Eppure questa è solo un'ipotesi che sto facendo (circa la sottostrazione media).
Tutto dipende anche dalla funzione di attivazione. Ad esempio: i sigmoidi potrebbero essere cattivi qui per i gradienti di fuga se i bias sono regolarizzati su offset costanti elevati.
Il tutorial dice "l'applicazione della riduzione del peso alle unità di polarizzazione di solito fa solo una piccola differenza per la rete finale", quindi se non aiuta, puoi smettere di farlo per eliminare un iperparametro. Se ritieni che la regolarizzazione dell'offset sia di aiuto nella tua configurazione, convalida incrociata; tentar non nuoce.