Determinare la velocità di apprendimento ottimale per la discesa gradiente nella regressione lineare

9

Come si può determinare il tasso di apprendimento ottimale per la discesa gradiente? Sto pensando che potrei regolarlo automaticamente se la funzione di costo restituisce un valore maggiore rispetto alla precedente iterazione (l'algoritmo non converge), ma non sono davvero sicuro di quale nuovo valore dovrebbe prendere.

regression machine-learning gradient-descent

— Valentin Radu
fonte

willamette.edu/~gorr/classes/cs449/momrate.html Prova di ricottura con una forma di adattamento della velocità locale: µ (t) = µ (0) / (1 + t / T); Incrementa t quando il segno dell'errore cambia.

— Chris,

2

(Anni dopo) cercare il metodo della dimensione del gradino Barzilai-Borwein; onmyphd.com ha una bella descrizione di 3 pagine. Dice l'autore

questo approccio funziona bene, anche per problemi di grandi dimensioni

ma è terribile per la sua applet della funzione 2d Rosenbrock. Se qualcuno utilizza Barzilai-Borwein, si prega di commentare.

— Denis
fonte

1

Sei sulla strada giusta. Un approccio comune è quello di raddoppiare la dimensione del gradino ogni volta che si esegue con successo una discesa e dimezzare la dimensione del gradino quando si va accidentalmente "troppo lontano". Potresti ridimensionare di un fattore diverso da 2, ovviamente, ma generalmente non farà una grande differenza.

Metodi di ottimizzazione più sofisticati probabilmente accelereranno un po 'la convergenza, ma se è necessario eseguire il rollup del proprio aggiornamento per qualche motivo, quanto sopra è attraente in modo semplice e spesso abbastanza buono.

— Ha disegnato
fonte

Stavo pensando di moltiplicare / dividere anche per due. Tuttavia, sono preoccupato che la moltiplicazione per due ogni volta che si verifica un passaggio riuscito finirà in molte più iterazioni. Speravo che ci fosse un modo per farlo usando il gradiente, poiché fornisce alcune informazioni su quanto è ripida la pendenza.

— Valentin Radu,

x

$x$

Se hai a che fare con un processo stazionario sottostante, il tasso di apprendimento massimo è regolato dallo spettro della matrice di correlazione, giusto?

— stella luminosa