Domande taggate «gradient-descent»

La discesa gradiente è un algoritmo di ottimizzazione iterativa di primo ordine. Per trovare un minimo locale di una funzione usando la discesa gradiente, si procede in modo proporzionale al negativo del gradiente (o del gradiente approssimativo) della funzione nel punto corrente. Per la discesa gradiente stocastica c'è anche il tag [sgd].




1
In che modo la discesa gradiente stocastica può far risparmiare tempo rispetto alla discesa gradiente standard?
Discesa gradiente standard calcolerebbe il gradiente per l'intero set di dati di allenamento. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Per un numero predefinito di epoche, prima calcoliamo il vettore gradiente weights_grad della funzione di perdita per l'intero set di dati …

1
Chiarimento sull'implementazione della Discendenza della regola di Perceptron rispetto alla discesa del gradiente rispetto alla discesa del gradiente stocastico
Ho sperimentato un po 'con diverse implementazioni di Perceptron e voglio assicurarmi di capire correttamente le "iterazioni". La regola originale del percettrone di Rosenblatt A quanto ho capito, nel classico algoritmo perceptron di Rosenblatt, i pesi vengono aggiornati simultaneamente dopo ogni esempio di allenamento tramite Δw(t+1)=Δw(t)+η(target−actual)xiΔw(t+1)=Δw(t)+η(target−actual)xi\Delta{w}^{(t+1)} = \Delta{w}^{(t)} + \eta(target …



1
Perché non usiamo tassi di apprendimento non costanti per gradienti decenti per cose diverse dalle reti neurali?
La letteratura sull'apprendimento profondo è piena di trucchi intelligenti con l'uso di tassi di apprendimento non costanti nella discesa del gradiente. Cose come il decadimento esponenziale, RMSprop, Adagrad ecc. Sono facili da implementare e sono disponibili in ogni pacchetto di apprendimento profondo, ma sembrano essere inesistenti al di fuori delle …

4
Come può essere intrappolato in un punto di sella?
Al momento sono un po 'perplesso da come la discesa del gradiente mini-batch possa essere intrappolata in un punto di sella. La soluzione potrebbe essere troppo banale per non averla. Si ottiene un nuovo campione ad ogni epoca e calcola un nuovo errore basato su un nuovo batch, quindi la …


2
Discesa gradiente vs funzione lm () in R?
Sto esaminando i video del corso di apprendimento automatico online di Andrew Ng a Stanford. Discute Gradient Descent come un algoritmo per risolvere la regressione lineare e scrivere funzioni in Octave per eseguirlo. Presumibilmente potrei riscrivere quelle funzioni in R, ma la mia domanda è: la funzione lm () non …



1
Scelta delle dimensioni minibatch appropriate per la discesa gradiente stocastica (SGD)
C'è qualche letteratura che esamina la scelta della dimensione del minibatch quando si esegue la discesa gradiente stocastica? Nella mia esperienza, sembra essere una scelta empirica, di solito trovata attraverso la convalida incrociata o usando varie regole empiriche. È una buona idea aumentare lentamente le dimensioni del minibatch man mano …


Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.