Approssimazione del secondo ordine della funzione di perdita (Deep learning book, 7.33)

Nel libro di Goodfellow (2016) sull'apprendimento profondo, ha parlato dell'equivalenza dell'arresto anticipato alla regolarizzazione L2 ( https://www.deeplearningbook.org/contents/regularization.html pagina 247).

Approssimazione quadratica della funzione di costo è data da: $j$

\hat{J} (θ) = J (w^{*}) + \frac{1}{2} (w - w^{*})^{T} H (w - w^{*})

$\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*)$

dove è la matrice hessiana (Eq. 7.33). Manca questo a medio termine? L'espansione di Taylor dovrebbe essere: $H$

f (w + ϵ) = f (w) + f^{'} (w) \cdot ϵ + \frac{1}{2} f^{″} (w) \cdot ϵ^{2}

$f(w+\epsilon)=f(w)+f'(w)\cdot\epsilon+\frac{1}{2}f''(w)\cdot\epsilon^2$

neural-networks deep-learning loss-functions derivative

— SteveW
fonte

Parlano dei pesi in modo ottimale:

Possiamo modellare la funzione di costo con un'approssimazione quadratica in prossimità del valore empiricamente ottimale dei pesi $J$ $w^∗$

A quel punto, la prima derivata è zero: il termine medio viene quindi lasciato fuori.

— Jan Kukacka
fonte