Domande taggate «gradient-descent»

La discesa gradiente è un algoritmo di ottimizzazione iterativa di primo ordine. Per trovare un minimo locale di una funzione usando la discesa gradiente, si procede in modo proporzionale al negativo del gradiente (o del gradiente approssimativo) della funzione nel punto corrente. Per la discesa gradiente stocastica c'è anche il tag [sgd].


3
Discesa discendente in pendenza rispetto alla discesa gradiente stocastica
Supponiamo di avere un set di addestramento per . Supponiamo inoltre di eseguire un qualche tipo di algoritmo di apprendimento supervisionato sul set di addestramento. Le ipotesi sono rappresentate come . Dobbiamo trovare i parametri che minimizzano la "distanza" tra e . Sia(x(i),y(i))(x(i),y(i))(x_{(i)}, y_{(i)})i=1,…,mi=1,…,mi = 1, \dots, mhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nh_{\theta}(x_{(i)}) = \theta_0+\theta_{1}x_{(i)1} …



3
Perché i ricercatori delle reti neurali si preoccupano delle epoche?
Un'epoca nella discesa del gradiente stocastico è definita come un singolo passaggio attraverso i dati. Per ogni minibatch SGD, vengono estratti campioni, il gradiente calcolato e i parametri aggiornati. Nell'impostazione dell'epoca, i campioni vengono disegnati senza sostituzione.kkk Ma questo sembra inutile. Perché non disegnare ogni minibatch SGD mentre disegna casualmente …







1
Reti neurali: momento di variazione del peso e decadimento del peso
Lo slancio viene utilizzato per ridurre le fluttuazioni delle variazioni di peso su iterazioni consecutive:αα\alpha Δωi(t+1)=−η∂E∂wi+αΔωi(t),Δωi(t+1)=−η∂E∂wi+αΔωi(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t), dove è la funzione di errore, - il vettore dei pesi, - tasso di apprendimento.E(w)E(w)E({\bf w})ww{\bf w}ηη\eta La riduzione del peso penalizza le variazioni di …

4
In che modo la funzione di attivazione rettilinea risolve il problema del gradiente evanescente nelle reti neurali?
Ho trovato l'unità lineare rettificata (ReLU) elogiata in diversi punti come soluzione al problema del gradiente di fuga per le reti neurali. Cioè, si usa max (0, x) come funzione di attivazione. Quando l'attivazione è positiva, è ovvio che è meglio, per esempio, della funzione di attivazione sigmoidea, poiché la …


2
Abbiamo bisogno della discesa del gradiente per trovare i coefficienti di un modello di regressione lineare?
Stavo cercando di imparare l'apprendimento automatico usando il materiale Coursera . In questa lezione, Andrew Ng utilizza l'algoritmo di discesa gradiente per trovare i coefficienti del modello di regressione lineare che minimizzerà la funzione di errore (funzione di costo). Per la regressione lineare, abbiamo bisogno di una discesa gradiente? Sembra …

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.