Differenza tra decadimento del peso netto neurale e tasso di apprendimento

Nel contesto delle reti neurali, qual è la differenza tra il tasso di apprendimento e il decadimento del peso?

neural-networks terminology

— Ryan Zotti
fonte

Risposte:

161

La velocità di apprendimento è un parametro che determina quanto una fase di aggiornamento influenza il valore corrente dei pesi. Mentre il decadimento del peso è un termine aggiuntivo nella regola di aggiornamento del peso che provoca il decadimento esponenziale dei pesi a zero, se non è pianificato alcun altro aggiornamento.

Diciamo quindi che abbiamo una funzione di costo o errore che vogliamo minimizzare. La discesa con gradiente ci dice di modificare i pesi nella direzione della discesa più ripida in : dove è il tasso di apprendimento, e se è grande avrai una corrispondente modifica dei pesi (in generale non dovrebbe essere troppo grande, altrimenti supererai il minimo locale nella tua funzione di costo). $E(\mathbf{w})$ $\mathbf{w}$ $E$

w_{io} \leftarrow w_{io} - η \frac{\partial E}{\partial w_{io}},

$\begin{equation} w_i \leftarrow w_i-\eta\frac{\partial E}{\partial w_i}, \end{equation}$

η

$\eta$

w_{i}

$w_i$

Al fine di limitare efficacemente il numero di parametri gratuiti nel modello in modo da evitare un eccesso di adattamento, è possibile regolarizzare la funzione di costo. Un modo semplice per farlo consiste nell'introdurre un precedente gaussiano a media zero rispetto ai pesi, che equivale a cambiare la funzione di costo in . In pratica, ciò penalizza pesi elevati e limita efficacemente la libertà nel modello. Il parametro di regolarizzazione determina come compensare il costo originale con la penalizzazione dei pesi elevati. $\widetilde{E}(\mathbf{w})=E(\mathbf{w})+\frac{\lambda}{2}\mathbf{w}^2$ $\lambda$ $E$

Applicando la discesa gradiente a questa nuova funzione di costo otteniamo: Il nuovo termine proveniente dalla regolarizzazione fa decadere il peso in proporzione alle sue dimensioni.

w_{io} \leftarrow w_{io} - η \frac{\partial E}{\partial w_{io}} - η λ w_{io} .

$\begin{equation} w_i \leftarrow w_i-\eta\frac{\partial E}{\partial w_i}-\eta\lambda w_i. \end{equation}$

- η λ w_{i}

$-\eta\lambda w_i$

— MRIG
fonte

Grazie per l'utile spiegazione. Una domanda: nel pacchetto R "nnet" è presente un parametro utilizzato nell'addestramento della rete neurale chiamato "decadimento". Sai se il decadimento corrisponde alla tua lambda o alla tua eta * lambda?

— Andrea Ianni ௫

Vorrei anche aggiungere che la perdita di peso è la stessa cosa della regolarizzazione L2 per coloro che hanno familiarità con quest'ultimo.

— Sergei,

@Sergei per favore no, smetti di diffondere questa disinformazione! Questo è vero solo nel caso molto particolare della vaniglia SGD. Vedere il Decadimento del peso di fissaggio per la carta Adam .

— LucasB,

Per chiarire: al momento della stesura del documento, i documenti PyTorch per Adam usano il termine "decadimento del peso" (tra parentesi chiamato "penalità L2") per riferirsi a ciò che penso che quegli autori chiamino regolamento L2. Se ho capito bene, questa risposta si riferisce a SGD senza slancio, dove i due sono equivalenti.

— Dylan F,

Oltre alla risposta di @ mrig (+1), per molte applicazioni pratiche di reti neurali è meglio usare un algoritmo di ottimizzazione più avanzato, come Levenberg-Marquardt (reti di dimensioni medio-piccole) o discesa gradiente coniugato in scala (medio-grande reti), poiché saranno molto più veloci e non è necessario impostare il tasso di apprendimento (entrambi gli algoritmi adattano essenzialmente il tasso di apprendimento utilizzando la curvatura e il gradiente). Qualsiasi pacchetto o libreria di reti neurali decenti avrà implementazioni di uno di questi metodi, qualsiasi pacchetto che non è probabilmente obsoleto. Uso il libary NETLAB per MATLAB, che è un ottimo pezzo di kit.

— Dikran Marsupial
fonte

Che dire degli algoritmi di ottimizzazione basati su Rprop? Come si accumulano?

— potenza

Penso che molte persone stiano usando varianti di rprop + momentum come RMSProp, adagrad, SGD + nesterov momentum. Vedi classe cs231 .

— facuq

Bene, ovviamente dipende dalla tua applicazione. Ma per grandi set di dati / reti che sono un po 'alla moda in questo momento, penso che le persone stiano trovando quegli algoritmi che ho citato più adatti.

— facuq

@DikranMarsupial potrebbe essere perché al giorno d'oggi (quasi cinque anni dopo la tua risposta) le persone tendono ad usare Adam invece?

— ComputerScientist,

In effetti questa risposta è molto obsoleta. Questi algoritmi non sono pratici con la scala di modelli e set di dati che sono tipici al giorno d'oggi, e i pacchetti più utilizzati, che certamente non sono obsoleti, mancano di questi algoritmi.

— LucasB,

Ho termini semplici:

learning_rate: controlla la velocità o la lentezza con cui un modello di rete neurale rileva un problema.

rif: https://machinelearningmastery.com/learning-rate-for-deep-learning-neural-networks/

wight_decay: è una tecnica di regolarizzazione utilizzata per evitare un eccesso di adattamento.

rif: https://metacademy.org/graphs/concepts/weight_decay_neural_networks

— Ketan Vishwakarma
fonte