Derivazione della funzione di costo di regressione lineare regolarizzata per corso di apprendimento automatico Coursera


12

Ho seguito il corso "Machine Learning" di Andrew Ng via Coursera qualche mese fa, non prestando attenzione alla maggior parte della matematica / derivazioni e concentrandomi invece sull'implementazione e sulla praticità. Da allora ho iniziato a studiare alcune delle teorie di base e ho rivisitato alcune lezioni del Prof. Ng. Stavo leggendo la sua lezione su "Regressione lineare regolarizzata" e ho visto che ha dato la seguente funzione di costo:

J(θ)=12m[i=1m(hθ(x(i))y(i))2+λj=1nθj2]

Quindi, fornisce il seguente gradiente per questa funzione di costo:

θjJ(θ)=1m[Σio=1m(hθ(X(io))-y(io))Xj(io)-λθj]

Sono un po 'confuso su come si passa dall'uno all'altro. Quando ho provato a fare la mia derivazione, ho avuto il seguente risultato:

θjJ(θ)=1m[Σio=1m(hθ(X(io))+y(io))Xj(io)+λθj]

La differenza è il segno "più" tra la funzione di costo originale e il parametro di regolarizzazione nella formula del Prof. Ng che si trasforma in un segno "meno" nella sua funzione di gradiente, mentre ciò non accade nel mio risultato.

Intuitivamente capisco perché è negativo: stiamo riducendo il parametro theta della figura del gradiente e vogliamo che il parametro di regolarizzazione riduca la quantità che stiamo cambiando il parametro per evitare un eccesso di adattamento. Sono solo un po 'bloccato sul calcolo che sostiene questa intuizione.

Cordiali saluti, puoi trovare il mazzo qui , nelle diapositive 15 e 16.


1
Nel tuo risultato hai un " + " che precede la y ^ (i) - è un refuso?
Steve S,

Risposte:


12

J(θ)=12m[Σio=1m(hθ(X(io))-y(io))2+λΣj=1nθj2]

Adesso

θj(hθ(X(io))-y(io))2=2[(hθ(X(io))-y(io))θj{hθ(X(io))}]

θj(hθ(X(io))=[X(io)]j

θjλΣj=1nθ2=2λθj

Quindi per il caso lineare

θjJ(θ)=1m[Σio=1m(hθ(X(io))-y(io))Xj(io)+λθj]

Sembra che sia tu che Andrew potreste avere errori di battitura. Bene, almeno due di noi tre sembrano.


è confermato, solo un refuso sulla nota di Andrew, dovrebbe essere un segno +. E Prof spiega correttamente tutto, compresa l'intuizione θ (1-α (λ / m)) che significa ogni volta che questo si restringe θ quindi meno la solita parte prima dell'introduzione della regolarizzazione.
Gob00st


1

In realtà, penso che sia solo un errore di battitura.

-α-λθ-α

Ha senso?

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.