Perché di solito scegliamo di ridurre al minimo la somma degli errori quadrati (SSE) quando si adatta un modello?


23

La domanda è molto semplice: perché, quando proviamo ad adattare un modello ai nostri dati, lineari o non lineari, di solito proviamo a minimizzare la somma dei quadrati degli errori per ottenere il nostro stimatore per il parametro del modello? Perché non scegliere qualche altra funzione oggettiva da minimizzare? Capisco che, per motivi tecnici, la funzione quadratica è più bella di alcune altre funzioni, ad esempio la somma della deviazione assoluta. Ma questa non è ancora una risposta molto convincente. A parte questo motivo tecnico, perché in particolare le persone sono favorevoli a questo "tipo euclideo" della funzione della distanza? C'è un significato o un'interpretazione specifica per quello?

La logica alla base del mio pensiero è la seguente:

Quando si dispone di un set di dati, è necessario innanzitutto impostare il modello facendo una serie di ipotesi funzionali o distributive (ad esempio, alcune condizioni del momento ma non l'intera distribuzione). Nel tuo modello, ci sono alcuni parametri (supponiamo che sia un modello parametrico), quindi devi trovare un modo per stimare costantemente questi parametri e, si spera, il tuo stimatore avrà una varianza bassa e alcune altre belle proprietà. Sia che minimizzi SSE o LAD o qualche altra funzione oggettiva, penso che siano solo metodi diversi per ottenere uno stimatore coerente. Seguendo questa logica, ho pensato che le persone usassero il minimo quadrato deve essere 1) produce uno stimatore coerente del modello 2) qualcos'altro che non conosco.

In econometria, sappiamo che nel modello di regressione lineare, se si presume che i termini di errore abbiano 0 condizionamento medio sui predittori e omoscedasticità e gli errori non siano correlati tra loro, quindi minimizzare la somma dell'errore quadrato vi darà uno stimatore COERENTE del vostro modello parametri e dal teorema di Gauss-Markov, questo stimatore è BLU. Quindi questo suggerirebbe che se si sceglie di minimizzare qualche altra funzione oggettiva che non è l'SSE, non vi è alcuna garanzia che si otterrà uno stimatore coerente del parametro del modello. La mia comprensione è corretta? Se è corretto, minimizzare SSE piuttosto che qualche altra funzione oggettiva può essere giustificato dalla coerenza, il che è accettabile, in effetti, meglio di dire che la funzione quadratica è più bella.

In pratica, in realtà ho visto molti casi in cui le persone minimizzano direttamente la somma degli errori quadrati senza prima specificare chiaramente il modello completo, ad esempio le ipotesi distributive (ipotesi del momento) sul termine dell'errore. Quindi questo mi sembra che l'utente di questo metodo voglia solo vedere quanto i dati si adattano al 'modello' (uso le virgolette poiché le ipotesi del modello sono probabilmente incomplete) in termini di funzione di distanza quadrata.

Una domanda correlata (anche correlata a questo sito Web) è: perché, quando proviamo a confrontare diversi modelli utilizzando la convalida incrociata, utilizziamo nuovamente l'SSE come criterio di giudizio? vale a dire, scegliere il modello che ha il meno SSE? Perché non un altro criterio?


Risposte:


14

Mentre la tua domanda è simile a una serie di altre domande sul sito, aspetti di questa domanda (come la tua enfasi sulla coerenza) mi fanno pensare che non siano sufficientemente vicini ad essere duplicati.

Perché non scegliere qualche altra funzione oggettiva da minimizzare?

Perché no, davvero? Se il tuo obiettivo è diverso dai minimi quadrati, dovresti invece affrontarlo!

Tuttavia, i minimi quadrati hanno una serie di belle proprietà (non da ultimo, una connessione intima con i mezzi di stima , che molte persone vogliono, e una semplicità che lo rende una prima scelta ovvia quando si insegna o si cerca di implementare nuove idee).

Inoltre, in molti casi le persone non hanno una chiara funzione oggettiva, quindi c'è un vantaggio nella scelta di ciò che è prontamente disponibile e ampiamente compreso.

Detto questo, i minimi quadrati hanno anche alcune proprietà meno piacevoli (la sensibilità ai valori anomali, per esempio) - quindi a volte le persone preferiscono un criterio più solido.

minimizzare la somma dell'errore quadrato ti darà uno stimatore COERENTE dei parametri del tuo modello

I minimi quadrati non sono un requisito per la coerenza. La coerenza non è un ostacolo molto elevato: molti stimatori saranno coerenti. Quasi tutti gli stimatori che le persone usano nella pratica sono coerenti.

e dal teorema di Gauss-Markov, questo stimatore è BLU.

Ma in situazioni in cui tutti gli stimatori lineari sono cattivi (come sarebbe il caso di code pesanti estreme, diciamo), non c'è molto vantaggio nel migliore.

se si sceglie di ridurre al minimo alcune altre funzioni oggettive che non sono SSE, non si garantisce che si otterrà uno stimatore coerente del parametro del modello. La mia comprensione è corretta?

non è difficile trovare stimatori coerenti, quindi no non è una giustificazione particolarmente buona dei minimi quadrati

perché quando proviamo a confrontare diversi modelli usando la validazione incrociata, usiamo di nuovo l'SSE come criterio di giudizio? [...] Perché non altri criteri?

Se il tuo obiettivo è meglio riflesso da qualcos'altro, perché no davvero?

Non mancano le persone che usano altre funzioni oggettive oltre ai minimi quadrati. Viene fuori nella stima M, negli stimatori meno rifiniti, nella regressione quantile e quando le persone usano le funzioni di perdita LINEX, solo per citarne alcuni.

pensavo che quando hai un set di dati, hai prima impostato il tuo modello, cioè fai una serie di ipotesi funzionali o distributive. Nel tuo modello, ci sono alcuni parametri (supponiamo che sia un modello parametrico),

Presumibilmente i parametri delle assunzioni funzionali sono ciò che stai cercando di stimare - nel qual caso, le assunzioni funzionali sono ciò che fai meno quadrati (o qualsiasi altra cosa) intorno ; non determinano il criterio, sono ciò che il criterio sta stimando.

D'altra parte, se hai un'ipotesi distributiva, allora hai molte informazioni su una funzione obiettivo più adatta - presumibilmente, ad esempio, vorrai ottenere stime efficienti dei tuoi parametri - che in grandi campioni tendono a condurti verso l'MLE (sebbene possibilmente in alcuni casi incorporato in una struttura robusta).

quindi è necessario trovare un modo per stimare in modo coerente questi parametri. Sia che minimizzi SSE o LAD o qualche altra funzione oggettiva,

LAD è uno stimatore quantile. È uno stimatore coerente del parametro che dovrebbe stimare nelle condizioni in cui dovrebbe essere previsto, allo stesso modo dei minimi quadrati. (Se guardi a cosa mostri coerenza con i minimi quadrati, ci sono risultati corrispondenti per molti altri stimatori comuni. Le persone raramente usano stimatori incoerenti, quindi se vedi uno stimatore che viene ampiamente discusso, a meno che non stiano parlando della sua incoerenza, è quasi sicuramente coerente. *)

* Detto questo, la coerenza non è necessariamente una proprietà essenziale. Dopotutto, per il mio campione, ho una dimensione del campione particolare, non una sequenza di dimensioni del campione che tende all'infinito. Ciò che conta sono le proprietà di che ho, non alcune infinitamente più grandi che non ho e che non vedrò mai . Ma è necessaria molta più attenzione in caso di incoerenza: potremmo avere un buon stimatore a = 20, ma potrebbe essere terribile a = 2000; c'è più sforzo richiesto, in un certo senso, se vogliamo usare stimatori coerenti.n n nnnnn

Se usi LAD per stimare la media di un esponenziale, non sarà coerente per quello (anche se sarebbe un ridimensionamento banale della sua stima) - ma per lo stesso motivo se usi i minimi quadrati per stimare la mediana di un esponenziale , non sarà coerente per questo (e ancora una volta, un banale riscalaggio lo risolve).


Immagino di non aver espresso chiaramente la mia preoccupazione. Stavo pensando che quando hai un set di dati, prima imposti il ​​tuo modello, cioè fai una serie di ipotesi funzionali o distributive. Nel tuo modello, ci sono alcuni parametri (supponiamo che sia un modello parametrico), quindi devi trovare un modo per stimare costantemente questi parametri. Sia che minimizzi SSE o LAD o qualche altra funzione oggettiva, penso che siano solo metodi diversi per ottenere lo stimatore. Seguendo questa logica, ho pensato che le persone
usassero il

Presumibilmente i parametri delle assunzioni funzionali sono ciò che stai cercando di stimare - nel qual caso, le assunzioni funzionali sono ciò che fai meno quadrati (o qualsiasi altra cosa) intorno; non determinano il criterio. D'altra parte, se hai un'ipotesi distributiva, allora hai molte informazioni su una funzione obiettivo più adatta - presumibilmente, ad esempio, vorrai ottenere stime efficienti dei tuoi parametri - che in grandi campioni tendono a condurti verso MLE (anche se forse in alcuni casi incorporato in un quadro rinforzato).
Glen_b

Questa risposta si adatta alla mia mentalità. Ma ho ancora una domanda, cosa intendi con "non determinano il criterio"? Questo significa che, ad esempio, in econometric 101 in regressione lineare, sotto il presupposto funzionale (non distributivo), per ottenere lo stimatore coerente, devi usare ols, non puoi usare qualche funzione arbitraria dell'obiettivo per minimizzare, dal momento che no garanzia per derivare stimatore coerente da lì?
KevinKim,

Su "non determinare" - fammi espandere nella mia risposta. Sulla coerenza: ho affermato il contrario nella mia risposta. Consentitemi di affermarlo di nuovo: i minimi quadrati non sono un requisito per la coerenza. Ciò include la situazione appena menzionata; ci sono un'infinità di stimatori alternativi che sarebbero coerenti. Quasi tutti gli stimatori che le persone usano nella pratica sono coerenti. Modificherò la mia risposta per essere più esplicito.
Glen_b

per la tua risposta aggiornata, l'ultimo paragrafo, quindi per alcuni modelli, ci sono alcuni modi in cui NON produrre parametri coerenti per i parametri del tuo modello, anche se puoi comunque applicare quel metodo e compter ti darà dei numeri, giusto? Quindi posso dire che per un modello che le persone costruiscono, al fine di ricavare stimatori per i parametri nel modello, le persone NON POSSONO scegliere arbitrariamente una funzione oggettiva per ottimizzare SOLO sulla base delle sue belle proprietà tecniche?
KevinKim,

5

Hai fatto una domanda sulle statistiche e spero che la risposta del mio ingegnere del sistema di controllo sia un colpo da un'altra direzione per essere illuminante.

Ecco un modulo "canonico" per il flusso di informazioni per l'ingegneria dei sistemi di controllo: inserisci qui la descrizione dell'immagine

La "r" è per valore di riferimento. Viene sommato con una trasformazione "F" dell'uscita "y" per produrre un errore "e". Questo errore è l'ingresso per un controller, trasformato dalla funzione di trasferimento di controllo "C" in un ingresso di controllo per l'impianto "P". È pensato per essere abbastanza generale da applicare a piante arbitrarie. La "pianta" potrebbe essere un motore di automobile per il controllo automatico della velocità o l'angolo di ingresso di un pendolo inverso.

Supponiamo che tu abbia una pianta con una nota funzione di trasferimento con fenomenologia adatta alla seguente discussione, uno stato attuale e uno stato finale desiderato. ( tabella 2.1 pp68 ) Esistono un numero infinito di percorsi univoci che il sistema, con input diversi, potrebbe attraversare per passare dallo stato iniziale a quello finale. Il manuale controlla gli "approcci ottimali" dell'ingegnere che comprendono il tempo ottimale ( tempo più breve / bang-bang ), la distanza ottimale (percorso più breve), la forza ottimale (magnitudine massima in ingresso minima) e l' energia ottimale (energia totale in ingresso minima).

Proprio come esiste un numero infinito di percorsi, esiste un numero infinito di "ottimali", ognuno dei quali seleziona uno di quei percorsi. Se scegli un percorso e dici che è meglio allora stai implicitamente scegliendo una "misura di bontà" o "misura di ottimalità".

Secondo la mia opinione personale, penso a persone come la norma L-2 (nota anche come energia ottimale, nota anche come errore al quadrato) perché è semplice, facile da spiegare, facile da eseguire, ha la proprietà di fare più lavoro contro errori più grandi di quelli più piccoli, e parte senza pregiudizi. Considera le norme h-infinity in cui la varianza è ridotta al minimo e il bias è vincolato ma non zero. Possono essere abbastanza utili, ma sono più complessi da descrivere e più complessi da codificare.

Penso che la norma L2, ovvero il percorso ottimale che minimizza l'energia, noto anche come adattamento dell'errore meno quadrato, è facile e in senso pigro si adatta all'euristica che "errori più grandi sono più cattivi e errori più piccoli sono meno cattivi". Esistono letteralmente un numero infinito di modi algoritmici per formularlo, ma l'errore al quadrato è uno dei più convenienti. Richiede solo algebra, quindi più persone possono capirlo. Funziona nello spazio polinomiale (popolare). L'energia ottimale è coerente con gran parte della fisica che comprende il nostro mondo percepito, quindi "sembra familiare". È abbastanza veloce da calcolare e non troppo orribile in memoria.

Se avrò più tempo, vorrei inserire immagini, codici o riferimenti bibliografici.


1

SSESSER2SST

R2=1SSESST

R2R2RMSE

R2R2SSESSEPRESS, pertinenti alla tua domanda alla fine del post.

SSE


2
R2R2

R2R2

R2

R2

0

Potresti anche cercare di ridurre al minimo l'errore massimo anziché il minimo adattamento dei quadrati. Vi è un'ampia letteratura sull'argomento. Per una parola di ricerca, prova "Tchebechev" anche scritto polinomi "Chebyshev".


1
Il massimo è una norma L-infinito. Se guardi Nutonian / Formulize / Eureqa, hanno un bel giardino di funzionali di costo (moduli di errore) tra cui errore assoluto interquartile, errore di perdita della cerniera, ROC-AUC e differenza firmata. formulize.nutonian.com/documentation/eureqa/general-reference/…
EngrStudent - Ripristina Monica

0

Sembra che le persone usino i quadrati perché permettono di essere all'interno del regno dell'Algebra lineare e di non toccare altre cose più complicate come l'ottimizzazione convessa che è più potente, ma porta a usare i risolutori senza soluzioni carine.

Anche l'idea di questo regno matematico che ha un nome di ottimizzazione convessa non si è molto diffusa.

"... Perché ci preoccupiamo per il quadrato di oggetti. Ad essere sinceri perché possiamo analizzarlo ... Se dici che corrisponde all'energia e loro la comprano, vai avanti rapidamente ...." - https: / /youtu.be/l1X4tOoIHYo?t=1416 , EE263, L8, 23:36.

Anche qui Stephen P. Boyd descrive nel 2008 che le persone usano il martello e l'adhoc: L20, 01:05:15 - https://youtu.be/qoCa7kMLXNg?t=3916


0

In una nota a margine:

p(t|x,w,β)=N(t|y(x,w),β1)
{x,t}w
p(t|x,w,β)=n=1NN(tn|y(xn,w),β1).
β2n=1N{y(xn,w)tn}2+N2lnβN2ln(2π)
wβ
12n=1N{y(xn,w)tn}2.
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.