Si afferma molto spesso che è preferibile ridurre al minimo i residui del minimo quadrato piuttosto che minimizzare i residui assoluti a causa del fatto che è più semplice dal punto di vista computazionale . Ma potrebbe anche essere migliore per altri motivi. Vale a dire, se le ipotesi sono vere (e questo non è così insolito) allora fornisce una soluzione che è (in media) più accurata.
Massima probabilità
La regressione dei minimi quadrati e la regressione quantile (se eseguita minimizzando i residui assoluti) possono essere viste come massimizzare la funzione di probabilità per errori distribuiti di Gauss / Laplace, e in questo senso sono molto correlati.
Distribuzione gaussiana:
f(x)=12πσ2−−−−√e−(x−μ)22σ2
con la probabilità logaritmica massimizzata quando si minimizza la somma dei residui quadrati
logL(x)=−n2log(2π)−nlog(σ)−12σ2∑i=1n(xi−μ)2sum of squared residuals
Distribuzione di Laplace:
f(x)=12be−|x−μ|b
con la probabilità logaritmica massimizzata quando si minimizza la somma dei residui assoluti
logL(x)=−nlog(2)−nlog(b)−1b∑i=1n|xi−μ|sum of absolute residuals
Nota: la distribuzione di Laplace e la somma dei residui assoluti si riferisce alla mediana, ma può essere generalizzata ad altri quantili dando pesi diversi ai residui negativi e positivi.
Distribuzione degli errori nota
Quando conosciamo la distribuzione degli errori (quando le ipotesi sono probabilmente vere) ha senso scegliere la funzione di probabilità associata. Ridurre al minimo quella funzione è più ottimale.
μ
Pertanto, quando gli errori sono distribuiti normalmente, la media del campione è uno stimatore migliore della mediana di distribuzione rispetto alla mediana del campione . La regressione dei minimi quadrati è uno stimatore più ottimale dei quantili. È meglio che usare la minima somma di residui assoluti.
Poiché così tanti problemi riguardano i normali errori distribuiti, l'uso del metodo dei minimi quadrati è molto popolare. Per lavorare con altri tipi di distribuzioni è possibile utilizzare il modello lineare generalizzato . E il metodo dei minimi quadrati iterativi, che può essere usato per risolvere i GLM, funziona anche per la distribuzione di Laplace (cioè per le deviazioni assolute ), che equivale a trovare la mediana (o nella versione generalizzata altri quantili).
Distribuzione degli errori sconosciuta
Robustezza
La mediana o altri quantili hanno il vantaggio di essere molto robusti rispetto al tipo di distribuzione. I valori effettivi non contano molto e ai quantili interessa solo l'ordine. Quindi, indipendentemente dalla distribuzione, ridurre al minimo i residui assoluti (che equivale a trovare i quantili) funziona molto bene.
La domanda diventa complessa e ampia qui ed è dipendente dal tipo di conoscenza che abbiamo o non abbiamo sulla funzione di distribuzione. Ad esempio, una distribuzione può essere approssimativamente normale, ma solo con alcuni valori anomali aggiuntivi. Questo può essere risolto rimuovendo i valori esterni. Questa rimozione dei valori estremi funziona anche nella stima del parametro di posizione della distribuzione di Cauchy in cui la media troncata può essere uno stimatore migliore della mediana. Quindi non solo per la situazione ideale in cui valgono le ipotesi, ma anche per alcune applicazioni meno ideali (ad esempio valori anomali aggiuntivi) potrebbero esserci buoni metodi robusti che usano ancora una qualche forma di somma di residui quadrati invece di somma di residui assoluti.
Immagino che la regressione con i residui troncati possa essere computazionalmente molto più complessa. Quindi potrebbe effettivamente essere la regressione quantile che è il tipo di regressione che viene eseguita a causa della ragione per cui è computazionalmente più semplice (non più semplice dei minimi quadrati ordinari, ma più semplice dei minimi quadrati troncati ).
Biased / imparziale
Un altro problema è distorto rispetto a stimatori imparziali. In quanto sopra ho descritto la stima della massima verosimiglianza per la media, ovvero la soluzione dei minimi quadrati, come stimatore buono o preferibile perché spesso presenta la varianza più bassa di tutti gli stimatori imparziali (quando gli errori sono distribuiti normalmente). Tuttavia, gli stimatori distorti potrebbero essere migliori (somma prevista inferiore dell'errore quadrato).
Questo rende la domanda di nuovo ampia e complessa. Esistono molti stimatori diversi e molte situazioni diverse per applicarli. L'uso di una somma adattata della funzione di perdita dei residui quadrati spesso funziona bene per ridurre l'errore (ad esempio tutti i tipi di metodi di regolarizzazione), ma potrebbe non essere necessario che funzioni bene in tutti i casi. Intuitivamente non è strano immaginare che, poiché la somma della funzione di perdita dei residui quadrati funziona spesso bene per tutti gli stimatori imparziali, gli stimatori ottimizzati distorti è probabilmente qualcosa di simile a una somma della funzione di perdita dei residui quadrati.