La funzione di perdita non funzionerebbe perché incentiva l'impostazione di su qualsiasi valore finito e su .θ1θ0−∞
Chiamiamo il residuo per .r(x,y)=1m∑mi=1hθ(x(i))−yh
Il tuo obiettivo è rendere più vicino possibile a zero , non solo minimizzarlo . Un valore negativo elevato è altrettanto negativo di un valore positivo elevato.r
EDIT: puoi contrastarlo limitando artificialmente lo spazio dei parametri (ad es. Vuoi ). In questo caso, i parametri ottimali si troverebbero su alcuni punti al limite dello spazio dei parametri. Vedi https://math.stackexchange.com/q/896388/12467 . Questo non è quello che vuoi.Θ|θ0|<10
Perché utilizziamo la perdita quadrata
L'errore al quadrato forza la corrispondenza di e . È minimizzato a , se possibile, ed è sempre , perché è un quadrato del numero reale .h(x)yu=v≥0u−v
|u−v|funzionerebbe anche per lo scopo sopra, come farebbe , con un numero intero positivo. Il primo di questi viene effettivamente utilizzato (si chiama perdita ; potresti anche imbatterti nella perdita , che è un altro nome per errore al quadrato).(u−v)2nnℓ1ℓ2
Quindi, perché la perdita al quadrato è migliore di queste? Questa è una domanda profonda legata al legame tra frequentatore e inferenza bayesiana . In breve, l'errore al quadrato si riferisce al rumore gaussiano .
Se i tuoi dati non si adattano esattamente a tutti i punti, ovvero non è zero per un certo punto, non importa quale tu scelga (come accadrà sempre nella pratica), ciò potrebbe essere a causa del rumore . In qualsiasi sistema complesso ci saranno molte piccole cause indipendenti per la differenza tra il modello e la realtà : errore di misura, fattori ambientali ecc. Secondo il Teorema del limite centrale (CLT), il rumore totale verrebbe distribuito normalmente , cioè secondo il Distribuzione gaussiana . Vogliamo scegliere il miglioreh(x)−yθ h yθprendendo in considerazione questa distribuzione del rumore. Supponiamo che , la parte di che il tuo modello non possa spiegare, segue la distribuzione gaussiana . Stiamo usando le maiuscole perché adesso stiamo parlando di variabili casuali.R=h(X)−YyN(μ,σ)
La distribuzione gaussiana ha due parametri, media e varianza . Vedi qui per capire meglio questi termini.μ=E[R]=1m∑ihθ(X(i))−Y(i))σ2=E[R2]=1m∑i(hθ(X(i))−Y(i)))2
Consideriamo , è l' errore sistematico delle nostre misurazioni. Usa per correggere l'errore sistematico, in modo che (esercizio per il lettore). Nient'altro da fare qui.μh′(x)=h(x)−μμ′=E[R′]=0
σ rappresenta l' errore casuale , chiamato anche rumore . Una volta che ci siamo occupati della componente sistematica del rumore come nel punto precedente, il miglior predittore si ottiene quando è ridotto a icona. Detto in altro modo, il miglior predittore è quello con la distribuzione più stretta (la varianza più piccola) attorno al valore previsto, ovvero la varianza più piccola. Ridurre al minimo la perdita minima quadrata è la stessa cosa di ridurre al minimo la varianza! Questo spiega perché la perdita meno quadrata funziona per una vasta gamma di problemi. Il rumore di fondo è molto spesso gaussiano, a causa del CLT, e minimizzare l'errore al quadrato risulta essere il giustoσ2=1m∑i(hθ(X(i))−Y(i)))2 cose da fare!
Per prendere contemporaneamente in considerazione sia la media che la varianza, includiamo un termine di bias nel nostro classificatore (per gestire l'errore sistematico ), quindi ridurre al minimo la perdita quadrata.μ
Domande di follow-up:
Perdita dei minimi quadrati = errore gaussiano. Ogni altra funzione di perdita corrisponde anche alla distribuzione del rumore? Sì. Ad esempio, la perdita (minimizzando il valore assoluto invece dell'errore al quadrato) corrisponde alla distribuzione di Laplace (Guarda la formula per il PDF nella casella info - è solo il gaussiano con anziché ). Una perdita popolare per le distribuzioni di probabilità è la divergenza KL . -La distribuzione gaussiana è molto ben motivata a causa del teorema del limite centraleℓ1|x−μ|(x−μ)2, di cui abbiamo discusso in precedenza. Quando la distribuzione di Laplace è il modello di rumore giusto? Ci sono alcune circostanze in cui si verifica naturalmente, ma è più comunemente come un regolarizzatore per applicare la scarsità : la perdita è la meno convessa tra tutte le perdite convesse.ℓ1
- Come menziona Jan nei commenti, il minimizzatore delle deviazioni quadrate è la media e il minimizer della somma delle deviazioni assolute è la mediana . Perché dovremmo trovare la mediana dei residui anziché la media? A differenza della media, la mediana non viene respinta da un valore anomalo molto grande. Pertanto, la perdita viene utilizzata per una maggiore robustezza. A volte viene utilizzata una combinazione dei due.ℓ1
Ci sono situazioni in cui minimizziamo sia la media che la varianza? Sì. Cerca il compromesso di bias-varianza . Qui, stiamo esaminando una serie di classificatori e chiedendo quale tra questi sia il migliore. Se chiediamo quale serie di classificatori sia la migliore per un problema, ridurre al minimo sia la distorsione che la varianza diventa importante. Si scopre che c'è sempre un compromesso tra loro e usiamo la regolarizzazione per raggiungere un compromesso.hθ∈H
Per quanto riguarda la termine12
Il 1/2 non ha importanza e in realtà non lo è nemmeno la - sono entrambe costanti. Il valore ottimale di rimarrebbe lo stesso in entrambi i casi.mθ
L'espressione per il gradiente diventa più bella con , perché il 2 dal termine quadrato si annulla.12
- Quando scriviamo codice o algoritmi, di solito ci occupiamo maggiormente del gradiente, quindi aiuta a mantenerlo conciso. Puoi controllare i progressi semplicemente controllando la norma del gradiente. La funzione di perdita stessa viene talvolta omessa dal codice perché viene utilizzata solo per la convalida della risposta finale.
La è utile se si risolve questo problema con la discesa del gradiente. Quindi il gradiente diventa la media di termini anziché una somma, quindi la sua scala non cambia quando si aggiungono più punti dati.mm
- Ho riscontrato questo problema in precedenza: testare il codice con un piccolo numero di punti e funziona bene, ma quando lo si verifica con l'intero set di dati si verifica una perdita di precisione e talvolta over / under -flow, ovvero il gradiente diventa
nan
o inf
. Per evitarlo, basta normalizzare il numero wrt di punti dati.
Queste decisioni estetiche vengono utilizzate qui per mantenere la coerenza con le equazioni future in cui aggiungere termini di regolarizzazione . Se si include , il parametro di regolarizzazione non dipenderà dalla dimensione del set di dati e sarà più interpretabile in tutti i problemi.mλm