La minimizzazione dell'errore al quadrato equivale alla minimizzazione dell'errore assoluto? Perché l'errore al quadrato è più popolare di quest'ultimo?


39

Quando eseguiamo la regressione lineare per adattare un gruppo di punti dati , l'approccio classico minimizza l'errore al quadrato. Sono stato a lungo perplesso da una domanda che minimizzando l'errore al quadrato produrrà lo stesso risultato di minimizzare l'errore assoluto ? In caso contrario, perché è meglio ridurre al minimo l'errore al quadrato? C'è qualche motivo diverso da "la funzione obiettivo è differenziabile"?( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y n )y=ax+b(x1,y1),(x2,y2),...,(xn,yn)

L'errore al quadrato è anche ampiamente usato per valutare le prestazioni del modello, ma l'errore assoluto è meno popolare. Perché l'errore al quadrato è più comunemente usato dell'errore assoluto? Se l'assunzione di derivati ​​non è implicata, calcolare l'errore assoluto è facile come calcolare l'errore al quadrato, quindi perché l'errore al quadrato è così prevalente ? C'è qualche vantaggio unico che può spiegare la sua prevalenza?

Grazie.


C'è sempre qualche problema di ottimizzazione dietro e vuoi essere in grado di calcolare i gradienti per trovare il minimo / massimo.
Vladislavs Dovgalecs,

11
x2<|x|per ese . Pertanto, l'errore al quadrato penalizza gli errori più grandi rispetto all'errore assoluto ed è più tollerante di piccoli errori che l'errore assoluto. Ciò si accorda bene con ciò che molti pensano sia un modo appropriato di fare le cose. x 2 > | x | | x | > 1x(1,1)x2>|x||x|>1
Dilip Sarwate,

Risposte:


47

La minimizzazione degli errori quadrati (MSE) non è sicuramente la stessa della minimizzazione delle deviazioni assolute (MAD) degli errori. MSE fornisce la risposta media di condizionata su , mentre MAD fornisce la risposta mediana di condizionata su .xyxxyx

Storicamente, Laplace inizialmente considerava il massimo errore osservato come una misura della correttezza di un modello. Passò presto a considerare MAD invece. A causa della sua incapacità di risolvere esattamente entrambe le situazioni, ha presto considerato il differenziale MSE. Se stesso e Gauss (apparentemente contemporaneamente) derivarono le equazioni normali, una soluzione a forma chiusa per questo problema. Oggi risolvere il MAD è relativamente semplice mediante la programmazione lineare. Come è noto, tuttavia, la programmazione lineare non ha una soluzione a forma chiusa.

Dal punto di vista dell'ottimizzazione, entrambi corrispondono alle funzioni convesse. Tuttavia, MSE è differenziabile, quindi, consentendo metodi basati sul gradiente, molto efficienti rispetto alla loro controparte non differenziabile. MAD non è differenziabile in .x=0

Un ulteriore motivo teorico è che, in un contesto bayesiano, assumendo priori uniformi dei parametri del modello, MSE produce normali errori distribuiti, che sono stati presi come prova della correttezza del metodo. Ai teorici piace la distribuzione normale perché credevano che fosse un fatto empirico, mentre agli sperimentali piace perché credono che sia un risultato teorico.

Un'ultima ragione per cui MSE potrebbe aver avuto l'ampia accettazione che ha è che si basa sulla distanza euclidea (in realtà è una soluzione del problema di proiezione su uno spazio di euclide banach) che è estremamente intuitivo data la nostra realtà geometrica.


1
(+1) per il riferimento a Laplace!
Xi'an,

2
"Ai teorici piace la distribuzione normale perché credevano che fosse un fatto empirico, mentre agli sperimentatori piace perché credono che sia un risultato teorico". -- Lo adoro. Ma non ci sono anche applicazioni fisiche dirette per la distribuzione gaussiana? E c'è anche la roba sulle distribuzioni di entropia massima
Shadowtalker,

8
@ssdecontrol Penso che l'epigramma sia dovuto a Henri Poincaré poco più di cento anni fa. Fino a quel momento in cui sono dipendenti, mi dispiace per un certo M. Lippmann, la macchina per gli espatriati che è immaginabile in un teatro di matematica, e per i matematici che è un fatto espiatorio. "Tutti ne sono sicuri [che gli errori sono normalmente distribuiti], mi ha detto Lippman un giorno, dal momento che gli sperimentatori credono che sia un teorema matematico, e i matematici che sia un fatto determinato sperimentalmente." da Calcul des probabilités (2a edizione, 1912), p. 171
Dilip Sarwate,

1
Ecco una risposta matematica. Se abbiamo una matrice di dati di variabili indipendenti X e una matrice di colonne Y, allora se esiste una matrice b con la proprietà Xb = Y, abbiamo un soln. Di solito non possiamo e vogliamo che b sia "il più vicino" a una soluzione esatta. Come matematica è "facile" da risolvere. È la proiezione di Y sullo spazio della colonna di X. Le nozioni di proiezione e perpendicolare ecc. Dipendono dalla metrica. La solita metrica euclidea L2 è ciò a cui siamo abituati e fornisce i minimi quadrati. La proprietà minimizzante di mse è una riaffermazione del fatto che abbiamo la proiezione.
aginensky,

1
Pensavo che il disaccordo prioritario fosse tra Gauss e Legendre, con Legendre che precede Gauss nell'editoria, ma Gauss che precede Legendre nella corrispondenza informale. Sono anche (vagamente) consapevole che la prova di Laplace è considerata superiore. Qualche riferimento su questi?
Patrick,

31

Come spiegazione alternativa, considerare la seguente intuizione:

Quando si minimizza un errore, dobbiamo decidere come penalizzare questi errori. In effetti, l'approccio più diretto alla penalizzazione degli errori sarebbe quello di utilizzare una linearly proportionalfunzione di penalità. Con tale funzione, ad ogni deviazione dalla media viene dato un errore proporzionale corrispondente. Due volte più lontano dalla media si tradurrebbe quindi in una penalità doppia .

L'approccio più comune è quello di considerare una squared proportionalrelazione tra deviazioni dalla media e la penalità corrispondente. Questo farà in modo che quanto più sei lontano dalla media, tanto più sarai penalizzato. Usando questa funzione di penalità, i valori anomali (lontani dalla media) sono considerati proporzionalmente più informativi delle osservazioni vicine alla media.

Per dare una visualizzazione di questo, puoi semplicemente tracciare le funzioni di penalità:

Confronto tra funzioni penali MAD e MSE

Ora soprattutto quando si considera la stima delle regressioni (ad es. OLS), diverse funzioni di penalità produrranno risultati diversi. Usando la linearly proportionalfunzione penalità, la regressione assegnerà meno peso agli outlier rispetto a quando si usa la squared proportionalfunzione penalità. La deviazione assoluta mediana (MAD) è quindi nota per essere uno stimatore più solido . In generale, quindi, uno stimatore robusto si adatta bene alla maggior parte dei punti dati ma "ignora" i valori anomali. Un adattamento dei minimi quadrati, in confronto, viene tirato più verso i valori anomali. Ecco una visualizzazione per il confronto:

Confronto tra OLS e uno stimatore robusto

Ora, anche se OLS è praticamente lo standard, sono sicuramente in uso anche diverse funzioni di penalità. Ad esempio, puoi dare un'occhiata alla funzione robustfit di Matlab che ti consente di scegliere una diversa funzione di penalità (chiamata anche 'peso') per la tua regressione. Le funzioni di penalità includono andrews, bisquare, cauchy, fair, huber, logistic, ols, talwar e welsch. Le loro espressioni corrispondenti sono disponibili anche sul sito Web.

Spero che ti aiuti a ottenere un po 'più di intuizione per le funzioni penali :)

Aggiornare

Se hai Matlab, posso consigliare di giocare con il robustodemo di Matlab , che è stato costruito appositamente per il confronto dei minimi quadrati ordinari con la regressione robusta:

robustdemo

La demo ti consente di trascinare singoli punti e vedere immediatamente l'impatto sia sui minimi quadrati ordinari sia sulla robusta regressione (che è perfetta per scopi didattici!).


3

Come ha spiegato un'altra risposta, minimizzare l'errore al quadrato non equivale a minimizzare l'errore assoluto.

Il motivo per cui si preferisce ridurre al minimo l'errore al quadrato è perché impedisce meglio errori di grandi dimensioni.

Supponiamo che il reparto stipendi del tuo empoler paghi accidentalmente ciascuno di un totale di dieci dipendenti $ 50 in meno del necessario. Questo è un errore assoluto di $ 500. È anche un errore assoluto di $ 500 se il dipartimento paga solo un dipendente $ 500 in meno. Ma in termini di errore al quadrato, è 25000 contro 250000.

Non è sempre meglio usare l'errore al quadrato. Se si dispone di un set di dati con un outlier estremo a causa di un errore di acquisizione dei dati, minimizzare l'errore al quadrato tirerà l'adattamento verso l'outlier estremo molto più che minimizzare l'errore assoluto. Detto questo, di solito è meglio usare l'errore al quadrato.


4
Il motivo per cui si preferisce ridurre al minimo l'errore al quadrato è perché impedisce meglio errori di grandi dimensioni. - allora perché non a cubetti?
Daniel Earwicker,

@DanielEarwicker Cubed commette errori nella direzione sbagliata sottrattiva. Quindi dovrebbe essere un errore assoluto al cubo, o attenersi a poteri pari. Non c'è davvero una "buona" ragione per cui il quadrato viene usato al posto di poteri superiori (o, in effetti, funzioni di penalità non polinomiali). È semplicemente facile da calcolare, facile da minimizzare e fa il lavoro.
Atsby,

1
Ovviamente avrei dovuto dire un potere uniforme superiore! :)
Daniel Earwicker,

Questo non ha voti positivi (al momento) ma non sta dicendo lo stesso della risposta che (attualmente) ha 15 voti (vale a dire che gli outlier hanno più effetto)? Non sta ottenendo voti perché è sbagliato o perché manca alcune informazioni chiave? O perché non ha grafici carini? ;-)
Darren Cook

@DarrenCook Ho il sospetto che l'approccio "moderno" alle statistiche preferisca MAD a OLS, e suggerire che l'errore al quadrato è "di solito" mi ha fatto guadagnare qualche voto negativo.
Atsby,

3

In teoria potresti usare qualsiasi tipo di funzione di perdita. Le funzioni di perdita assoluta e quadrata sono solo le funzioni di perdita più popolari e più intuitive. Secondo questa voce di Wikipedia ,

Un esempio comune riguarda la stima della "posizione". In base a ipotesi statistiche tipiche, la media o la media è la statistica per stimare la posizione che minimizza la perdita attesa sperimentata sotto la funzione di perdita di errore al quadrato, mentre la mediana è lo stimatore che minimizza la perdita attesa sperimentata con la funzione di perdita di differenza assoluta. Stimatori ancora diversi sarebbero ottimali in altre circostanze meno comuni.

Come spiegato anche nella voce Wikipedia, la scelta delle funzioni di perdita dipende da come valuti le deviazioni dall'oggetto target. Se tutte le deviazioni sono ugualmente dannose per te, indipendentemente dal loro segno, allora puoi usare la funzione di perdita assoluta. Se le deviazioni peggiorano per te quanto più sei lontano dall'ottimale e non ti importa se la deviazione è positiva o negativa, la funzione di perdita al quadrato è la scelta più semplice. Ma se nessuna delle definizioni di perdita sopra indicate si adatta al tuo problema, perché ad esempio le piccole deviazioni sono peggio per te rispetto alle grandi deviazioni, puoi scegliere una diversa funzione di perdita e provare a risolvere il problema di minimizzazione. Tuttavia, le proprietà statistiche della soluzione potrebbero essere difficili da valutare.


Un piccolo dettaglio: "Se tutte le deviazioni sono ugualmente cattive per te, indipendentemente dal loro segno ...": la funzione MAD penalizza gli errori in modo lineare e proporzionale. Pertanto gli errori non sono "ugualmente cattivi" ma "proporzionalmente cattivi" poiché il doppio dell'errore ottiene il doppio della penalità.
Jean-Paul,

@ Jean-Paul: hai ragione. Intendevo così. Quello che volevo dire con "ugualmente male" era che il gradiente del MAD è costante mentre il gradiente per il MSE cresce linearmente con l'errore. Quindi se la differenza tra due errori è costante, non importa quanto tu sia ottimale, mentre lo stesso non è vero per l'MSE. Spero che ciò renda un po 'più comprensibile ciò che voglio dire.
kristjan,

-1

Risposte brevi

  1. no
  2. la media ha proprietà statistiche più interessanti della mediana

10
Sarebbe bello se potessi qualificare "proprietà statistiche più interessanti".
Momo,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.