3
Discesa discendente in pendenza rispetto alla discesa gradiente stocastica
Supponiamo di avere un set di addestramento per . Supponiamo inoltre di eseguire un qualche tipo di algoritmo di apprendimento supervisionato sul set di addestramento. Le ipotesi sono rappresentate come . Dobbiamo trovare i parametri che minimizzano la "distanza" tra e . Sia(x(i),y(i))(x(i),y(i))(x_{(i)}, y_{(i)})i=1,…,mi=1,…,mi = 1, \dots, mhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nh_{\theta}(x_{(i)}) = \theta_0+\theta_{1}x_{(i)1} …