Non hai a. La funzione di perdita ha lo stesso minimo se includi o la sopprimi. Se lo includi, otterrai la bella interpretazione di minimizzare (la metà) l' errore medio per punto dati. In altre parole, stai riducendo al minimo il tasso di errore anziché l'errore totale.1m
Considerare di confrontare le prestazioni su due set di dati di dimensioni diverse. La somma grezza degli errori al quadrato non è direttamente confrontabile, poiché i set di dati più grandi tendono ad avere un errore totale maggiore solo a causa delle loro dimensioni. D'altra parte, l'errore medio per punto dati è .
Puoi elaborare un po '?
Sicuro. Il tuo set di dati è una raccolta di punti dati . Una volta che hai un modello , l'errore dei minimi quadrati di su un singolo punto dati è{xi,yi}hh
(h(xi)−yi)2
questo è, ovviamente, diverso per ogni punto dati. Ora, se sommiamo semplicemente gli errori (e moltiplichiamo per la metà per il motivo che descrivi) otteniamo l'errore totale
12∑i(h(xi)−yi)2
ma se dividiamo per il numero di somme otteniamo l' errore medio per punto dati
12m∑i(h(xi)−yi)2
Il vantaggio dell'errore medio è che se abbiamo due set di dati e di dimensioni diverse , allora possiamo confrontare gli errori medi ma non gli errori totali. Perché se il secondo set di dati è, diciamo, dieci volte più grande del primo, ci aspetteremmo che l'errore totale sia circa dieci volte più grande per lo stesso modello. D'altra parte, l'errore medio divide l'effetto della dimensione del set di dati, e quindi ci aspetteremmo che modelli con prestazioni simili presentino errori medi simili su set di dati diversi.{xi,yi}{x′i,y′i}