Ho seguito il corso "Machine Learning" di Andrew Ng via Coursera qualche mese fa, non prestando attenzione alla maggior parte della matematica / derivazioni e concentrandomi invece sull'implementazione e sulla praticità. Da allora ho iniziato a studiare alcune delle teorie di base e ho rivisitato alcune lezioni del Prof. Ng. Stavo leggendo la sua lezione su "Regressione lineare regolarizzata" e ho visto che ha dato la seguente funzione di costo:
Quindi, fornisce il seguente gradiente per questa funzione di costo:
Sono un po 'confuso su come si passa dall'uno all'altro. Quando ho provato a fare la mia derivazione, ho avuto il seguente risultato:
La differenza è il segno "più" tra la funzione di costo originale e il parametro di regolarizzazione nella formula del Prof. Ng che si trasforma in un segno "meno" nella sua funzione di gradiente, mentre ciò non accade nel mio risultato.
Intuitivamente capisco perché è negativo: stiamo riducendo il parametro theta della figura del gradiente e vogliamo che il parametro di regolarizzazione riduca la quantità che stiamo cambiando il parametro per evitare un eccesso di adattamento. Sono solo un po 'bloccato sul calcolo che sostiene questa intuizione.
Cordiali saluti, puoi trovare il mazzo qui , nelle diapositive 15 e 16.