Domande taggate «sgd»

3
Discesa discendente in pendenza rispetto alla discesa gradiente stocastica
Supponiamo di avere un set di addestramento per . Supponiamo inoltre di eseguire un qualche tipo di algoritmo di apprendimento supervisionato sul set di addestramento. Le ipotesi sono rappresentate come . Dobbiamo trovare i parametri che minimizzano la "distanza" tra e . Sia(x(i),y(i))(x(i),y(i))(x_{(i)}, y_{(i)})i=1,…,mi=1,…,mi = 1, \dots, mhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nh_{\theta}(x_{(i)}) = \theta_0+\theta_{1}x_{(i)1} …


6
Per problemi convessi, il gradiente in Discesa gradiente stocastica (SGD) indica sempre il valore estremo globale?
Data una funzione di costo convesso, usando SGD per l'ottimizzazione, avremo un gradiente (vettore) ad un certo punto durante il processo di ottimizzazione. La mia domanda è, dato il punto sul convesso, il gradiente punta solo nella direzione in cui la funzione aumenta / diminuisce più velocemente, oppure il gradiente …


1
In che modo la discesa gradiente stocastica può far risparmiare tempo rispetto alla discesa gradiente standard?
Discesa gradiente standard calcolerebbe il gradiente per l'intero set di dati di allenamento. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Per un numero predefinito di epoche, prima calcoliamo il vettore gradiente weights_grad della funzione di perdita per l'intero set di dati …

4
Come può essere intrappolato in un punto di sella?
Al momento sono un po 'perplesso da come la discesa del gradiente mini-batch possa essere intrappolata in un punto di sella. La soluzione potrebbe essere troppo banale per non averla. Si ottiene un nuovo campione ad ogni epoca e calcola un nuovo errore basato su un nuovo batch, quindi la …

1
RMSProp e Adam vs SGD
Sto eseguendo esperimenti sul set di validazione EMNIST usando le reti con RMSProp, Adam e SGD. Sto ottenendo una precisione dell'87% con SGD (tasso di apprendimento di 0,1) e dropout (0.1 drop prob) e regolarizzazione L2 (penalità 1e-05). Quando collaudo la stessa configurazione esatta con RMSProp e Adam, nonché il …

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.