Cosa fa sì che un modello richieda un basso tasso di apprendimento?


8

Ho riflettuto su questo per un po 'senza sviluppare un'intuizione per la matematica dietro la causa di questo.

Quindi cosa fa sì che un modello abbia bisogno di un basso tasso di apprendimento?


Mi sono anche chiesto a questo proposito e sono curioso di sapere perché le RNN hanno un tasso di apprendimento inferiore rispetto alle CNN. Da quello che so, la complessità del modello (profondità) e / o enormi set di dati richiedono un iperparametro più preciso per l'r.
Giustino,

Risposte:


4

La discesa del gradiente è un metodo per trovare il parametro ottimale dell'ipotesi o minimizzare la funzione di costo.

formula dove alfa è il tasso di apprendimento

Se il tasso di apprendimento è alto, può superare il minimo e non riuscire a minimizzare la funzione di costo. inserisci qui la descrizione dell'immagine

quindi comportare una perdita maggiore.

inserisci qui la descrizione dell'immagine

Poiché la discesa gradiente può trovare solo il minimo locale, il tasso di apprendimento più basso può comportare prestazioni scarse. Per fare ciò, è meglio iniziare con il valore casuale dell'iperparametro che può aumentare il tempo di allenamento del modello, ma esistono metodi avanzati come la discesa adattiva del gradiente in grado di gestire il tempo di allenamento.

Esistono molti ottimizzatori per lo stesso compito, ma nessun ottimizzatore è perfetto. Dipende da alcuni fattori

  1. dimensione dei dati di allenamento: all'aumentare della dimensione dei dati di allenamento aumenta il tempo di addestramento per il modello. Se si desidera andare con meno tempo del modello di allenamento, è possibile scegliere un tasso di apprendimento più elevato, ma si potrebbero verificare prestazioni scadenti.
  2. L'ottimizzatore (discesa gradiente) rallenterà ogni volta che il gradiente è piccolo, quindi è meglio andare con un tasso di apprendimento più elevato.

PS. È sempre meglio andare con diversi giri di discesa gradiente


4
Questo è un buon inizio, poiché mostra la differenza tra tassi di apprendimento bassi e alti in generale. Devi anche spiegare perché il buon tasso di apprendimento varia a seconda del compito - e il PO chiedeva specificamente perché alcuni problemi richiedessero un tasso di apprendimento più basso di altri
Neil Slater

1
È un buon punto. L'ho modificato. Dal momento che non esiste un problema specifico, si parla di quello generale.
Posi2

1
Penso ancora che questo non risponda alla domanda. L'OP non chiede informazioni sull'ottimizzatore o sui dati, ma chiede informazioni sul modello. In che modo il modello (la sua architettura, il numero di parametri, ecc.) Influenza il tasso di apprendimento? Penso che questa sia la vera domanda a cui non rispondi. Tutto il resto è abbastanza irrilevante per la domanda e confonderà solo i lettori che non sono in grado di distinguere tra questi concetti.
nbro

Grazie per il feedback. Indipendentemente dall'architettura del modello, in quanto il numero del parametro, la dimensione dei dati e l'intervallo dei dati (la soluzione utilizza dati normalizzati) è un risultato elevato nel tempo di formazione superiore, quindi in base ad esso, dovremmo modificare il tasso di apprendimento. Questo vale per il modello come regressione lineare, regressione logistica, SVM ecc. Poiché utilizzano GD per l'ottimizzazione. Qualsiasi risposta è sempre gradita :)
Posi2

Qualche prova che valuti il ​​tuo reclamo "indipendentemente dall'architettura del modello"? Questa risposta non risponde ancora alla domanda OP. Stai rispondendo alla domanda "come cambia la velocità di apprendimento in generale, a seconda delle impostazioni di apprendimento automatico" (e la tua risposta non è esaustiva, ovviamente, perché non menziona "come cambia la velocità di apprendimento a seconda del modello ", ovvero la vera domanda).
nbro
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.