Approssimazione del secondo ordine della funzione di perdita (Deep learning book, 7.33)


11

Nel libro di Goodfellow (2016) sull'apprendimento profondo, ha parlato dell'equivalenza dell'arresto anticipato alla regolarizzazione L2 ( https://www.deeplearningbook.org/contents/regularization.html pagina 247).

Approssimazione quadratica della funzione di costo è data da:j

J^(θ)=J(w)+12(ww)TH(ww)

dove è la matrice hessiana (Eq. 7.33). Manca questo a medio termine? L'espansione di Taylor dovrebbe essere: H

f(w+ϵ)=f(w)+f(w)ϵ+12f(w)ϵ2

Risposte:


15

Parlano dei pesi in modo ottimale:

Possiamo modellare la funzione di costo con un'approssimazione quadratica in prossimità del valore empiricamente ottimale dei pesiJw

A quel punto, la prima derivata è zero: il termine medio viene quindi lasciato fuori.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.