Funzione di costo nella regressione lineare OLS


32

Sono un po 'confuso con una lezione sulla regressione lineare tenuta da Andrew Ng su Coursera sull'apprendimento automatico. Lì, ha dato una funzione di costo che minimizza la somma dei quadrati come:

12mi=1m(hθ(X(i))Y(i))2

Capisco da dove viene il . Penso che l'abbia fatto in modo che quando eseguiva la derivata sul termine quadrato, i 2 nel termine quadrato si annullavano con la metà. Ma non capisco da dove provenga il .121m

Perché dobbiamo fare ? Nella regressione lineare standard, non l'abbiamo, minimizziamo semplicemente i residui. Perché ne abbiamo bisogno qui?1m


1 / 2m aiuta a trovare l'errore medio per punto dati e m rappresenta le osservazioni totali o il numero di osservazioni.
Krishnan Achary il

Risposte:


33

Come sembra rendersi conto, certamente non abbiamo bisogno del fattore per ottenere una regressione lineare. Naturalmente i minimizzatori saranno esattamente gli stessi, con o senza. Un motivo tipico per normalizzare per è che possiamo vedere la funzione di costo come un'approssimazione dell '"errore di generalizzazione", che è la perdita quadrata prevista su un nuovo esempio scelto casualmente (non nel set di addestramento):1/mm

Supponiamo che siano campionati da alcuni distribuzione. Quindi per grandi ci aspettiamo che (X,Y),(X(1),Y(1)),,(X(m),Y(m))m

1mi=1m(hθ(X(i))Y(i))2E(hθ(X)Y)2.

Più precisamente, secondo la legge forte dei grandi numeri, abbiamo con probabilità 1.

limm1mi=1m(hθ(X(i))Y(i))2=E(hθ(X)Y)2

Nota: ognuna delle affermazioni sopra è per ogni particolare , scelta senza guardare il set di addestramento. Per l'apprendimento automatico, vogliamo che queste affermazioni siano valide per alcuni scelti in base alle sue buone prestazioni sul set di addestramento. Queste affermazioni possono ancora valere in questo caso, anche se dobbiamo fare alcune ipotesi sull'insieme di funzioni e avremo bisogno di qualcosa di più forte della Legge di grandi numeri. θθ^{hθ|θΘ}


1
@StudentT Questo è probabilmente il motivo migliore per utilizzare l'errore medio sul totale. La mia spiegazione è in realtà solo una conseguenza a livello superficiale della ragione più profonda di DavidR.
Matthew Drury,

29

Non hai a. La funzione di perdita ha lo stesso minimo se includi o la sopprimi. Se lo includi, otterrai la bella interpretazione di minimizzare (la metà) l' errore medio per punto dati. In altre parole, stai riducendo al minimo il tasso di errore anziché l'errore totale.1m

Considerare di confrontare le prestazioni su due set di dati di dimensioni diverse. La somma grezza degli errori al quadrato non è direttamente confrontabile, poiché i set di dati più grandi tendono ad avere un errore totale maggiore solo a causa delle loro dimensioni. D'altra parte, l'errore medio per punto dati è .

Puoi elaborare un po '?

Sicuro. Il tuo set di dati è una raccolta di punti dati . Una volta che hai un modello , l'errore dei minimi quadrati di su un singolo punto dati è{xi,yi}hh

(h(xi)yi)2

questo è, ovviamente, diverso per ogni punto dati. Ora, se sommiamo semplicemente gli errori (e moltiplichiamo per la metà per il motivo che descrivi) otteniamo l'errore totale

12i(h(xi)yi)2

ma se dividiamo per il numero di somme otteniamo l' errore medio per punto dati

12mi(h(xi)yi)2

Il vantaggio dell'errore medio è che se abbiamo due set di dati e di dimensioni diverse , allora possiamo confrontare gli errori medi ma non gli errori totali. Perché se il secondo set di dati è, diciamo, dieci volte più grande del primo, ci aspetteremmo che l'errore totale sia circa dieci volte più grande per lo stesso modello. D'altra parte, l'errore medio divide l'effetto della dimensione del set di dati, e quindi ci aspetteremmo che modelli con prestazioni simili presentino errori medi simili su set di dati diversi.{xi,yi}{xi,yi}


1
Posso in qualche modo seguirti, puoi elaborare un po '? Mi dispiace, sono nuovo di machine learning!
SmallChess,

@StudentT Ho tentato un chiarimento nella mia risposta.
Matthew Drury,

1
Lo stesso vale anche se si sperimenta la dimensione del mini-batch quando si esegue la discesa gradiente stocastica, che è il tipo più comune di discesa con gradiente lineare quando si lavora con set di dati di grandi dimensioni: è possibile confrontare più facilmente l'errore.
jasonszhao,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.