Risposte:
Questa domanda è piuttosto vecchia ma in realtà ho una risposta che non appare qui, e una che fornisce una ragione convincente per cui (sotto alcune ipotesi ragionevoli) l'errore al quadrato è corretto, mentre qualsiasi altra potenza è errata.
Supponiamo di avere alcuni dati e vuole trovare la funzione lineare (o altro) f che meglio predice i dati, nel senso che la densità di probabilità p f ( D ) per l'osservazione di questi dati dovrebbe essere massima per quanto riguarda i f (questo si chiama ilstima della massima verosimiglianza ). Se assumiamo che i dati siano dati da più un termine di errore normalmente distribuito con deviazione standard σ , allora p f ( D ) = n ∏ i = 1 1 Questo equivale a 1
Non c'è motivo per cui non si possa provare a minimizzare norme diverse da x ^ 2, ci sono stati interi libri scritti sulla regressione quantile, per esempio, che sta minimizzando più o meno | x | se lavori con la mediana. È generalmente più difficile da fare e, a seconda del modello di errore, potrebbe non fornire buoni stimatori (a seconda che ciò significhi stimatori MSE a bassa varianza o imparziali o bassi nel contesto).
Per quanto riguarda il motivo per cui preferiamo i momenti interi rispetto ai momenti con valori reali, la ragione principale è probabile che mentre i poteri interi di numeri reali si traducono sempre in numeri reali, i poteri non interi di numeri reali negativi creano numeri complessi, richiedendo quindi l'uso di un valore assoluto. In altre parole, mentre il 3o momento di una variabile casuale con valore reale è reale, il 3.2o momento non è necessariamente reale e quindi causa problemi di interpretazione.
Oltre a quello...
Cerchiamo di ridurre al minimo la varianza che rimane nei descrittori. Perché varianza? Leggere questa domanda ; questo si accompagna anche all'assunto (per lo più silenzioso) che gli errori siano normalmente distribuiti.
Estensione:
due argomenti aggiuntivi:
Per le varianze, abbiamo questa bella "legge" che la somma delle varianze è uguale alla varianza della somma, per i campioni non correlati. Se assumiamo che l'errore non sia correlato al caso, minimizzare il residuo dei quadrati funzionerà in modo diretto per massimizzare la varianza spiegata, che forse è una misura di qualità non così buona ma ancora popolare.
Se assumiamo la normalità di un errore, lo stimatore dell'errore dei minimi quadrati è la massima probabilità.
Nei minimi quadrati ordinari, la soluzione di (A'A) ^ (- 1) x = A'b minimizza la perdita di errore al quadrato ed è la soluzione di massima verosimiglianza.
Quindi, soprattutto perché la matematica è stata facile in questo caso storico.
Ma generalmente le persone minimizzano molte diverse funzioni di perdita , come esponenziale, logistica, cauchy, laplace, huber, ecc. Queste funzioni di perdita più esotiche richiedono generalmente molte risorse computazionali e non hanno soluzioni a forma chiusa (in generale), quindi stanno solo iniziando a diventare più popolari ora.
La mia comprensione è che, poiché stiamo cercando di ridurre al minimo gli errori, dobbiamo trovare un modo per non trovarci in una situazione in cui la somma della differenza negativa negli errori è uguale alla somma della differenza positiva negli errori ma non abbiamo trovato una buona misura. Facciamo questo quadrando la somma della differenza di errori, il che significa che la differenza negativa e positiva di errori diventano entrambi positivi (). Se abbiamo sollevato alla potenza di qualsiasi cosa diversa da un numero intero positivo non affronteremmo questo problema perché gli errori non avrebbero lo stesso segno, o se aumentassimo alla potenza di qualcosa che non è un numero intero entreremmo nei regni del complesso numeri.