La domanda è molto semplice: perché, quando proviamo ad adattare un modello ai nostri dati, lineari o non lineari, di solito proviamo a minimizzare la somma dei quadrati degli errori per ottenere il nostro stimatore per il parametro del modello? Perché non scegliere qualche altra funzione oggettiva da minimizzare? Capisco che, per motivi tecnici, la funzione quadratica è più bella di alcune altre funzioni, ad esempio la somma della deviazione assoluta. Ma questa non è ancora una risposta molto convincente. A parte questo motivo tecnico, perché in particolare le persone sono favorevoli a questo "tipo euclideo" della funzione della distanza? C'è un significato o un'interpretazione specifica per quello?
La logica alla base del mio pensiero è la seguente:
Quando si dispone di un set di dati, è necessario innanzitutto impostare il modello facendo una serie di ipotesi funzionali o distributive (ad esempio, alcune condizioni del momento ma non l'intera distribuzione). Nel tuo modello, ci sono alcuni parametri (supponiamo che sia un modello parametrico), quindi devi trovare un modo per stimare costantemente questi parametri e, si spera, il tuo stimatore avrà una varianza bassa e alcune altre belle proprietà. Sia che minimizzi SSE o LAD o qualche altra funzione oggettiva, penso che siano solo metodi diversi per ottenere uno stimatore coerente. Seguendo questa logica, ho pensato che le persone usassero il minimo quadrato deve essere 1) produce uno stimatore coerente del modello 2) qualcos'altro che non conosco.
In econometria, sappiamo che nel modello di regressione lineare, se si presume che i termini di errore abbiano 0 condizionamento medio sui predittori e omoscedasticità e gli errori non siano correlati tra loro, quindi minimizzare la somma dell'errore quadrato vi darà uno stimatore COERENTE del vostro modello parametri e dal teorema di Gauss-Markov, questo stimatore è BLU. Quindi questo suggerirebbe che se si sceglie di minimizzare qualche altra funzione oggettiva che non è l'SSE, non vi è alcuna garanzia che si otterrà uno stimatore coerente del parametro del modello. La mia comprensione è corretta? Se è corretto, minimizzare SSE piuttosto che qualche altra funzione oggettiva può essere giustificato dalla coerenza, il che è accettabile, in effetti, meglio di dire che la funzione quadratica è più bella.
In pratica, in realtà ho visto molti casi in cui le persone minimizzano direttamente la somma degli errori quadrati senza prima specificare chiaramente il modello completo, ad esempio le ipotesi distributive (ipotesi del momento) sul termine dell'errore. Quindi questo mi sembra che l'utente di questo metodo voglia solo vedere quanto i dati si adattano al 'modello' (uso le virgolette poiché le ipotesi del modello sono probabilmente incomplete) in termini di funzione di distanza quadrata.
Una domanda correlata (anche correlata a questo sito Web) è: perché, quando proviamo a confrontare diversi modelli utilizzando la convalida incrociata, utilizziamo nuovamente l'SSE come criterio di giudizio? vale a dire, scegliere il modello che ha il meno SSE? Perché non un altro criterio?