Orientamento ai numeri naturali nel caso dei minimi quadrati


14

Perché cerchiamo di minimizzare x^2invece di minimizzare |x|^1.95o |x|^2.05. Ci sono ragioni per cui il numero dovrebbe essere esattamente due o è semplicemente una convenzione che ha il vantaggio di semplificare la matematica?

Risposte:


5

Questa domanda è piuttosto vecchia ma in realtà ho una risposta che non appare qui, e una che fornisce una ragione convincente per cui (sotto alcune ipotesi ragionevoli) l'errore al quadrato è corretto, mentre qualsiasi altra potenza è errata.

Supponiamo di avere alcuni dati e vuole trovare la funzione lineare (o altro) f che meglio predice i dati, nel senso che la densità di probabilità p f ( D ) per l'osservazione di questi dati dovrebbe essere massima per quanto riguarda i f (questo si chiama ilD=(x1,y1),(x2,y2),...,(xn,yn)fpf(D)fstima della massima verosimiglianza ). Se assumiamo che i dati siano dati da più un termine di errore normalmente distribuito con deviazione standard σ , allora p f ( D ) = n i = 1 1fσ Questo equivale a 1

pf(D)=Πio=1n1σ2πe-(yio-f(Xio))22σ2.
Quindi la massimizzazione dipf(D)si ottiene minimizzando n i = 1 (yi-f(xi))2, cioè la somma dei termini di errore al quadrato.
1σn(2π)n/2e-12σ2Σio=1n(yio-f(Xio))2.
pf(D)Σio=1n(yio-f(Xio))2

Sembra circolare, perché dovresti assumere un termine di errore normalmente distribuito?
Joe,

@Joe Non dovresti sempre, ma se l'unica cosa che sai del termine di errore è che ha una media di 0 e un valore assoluto atteso finito, allora questo è il presupposto della massima entropia, quindi può sostituire qualunque cosa sconosciuta funzione di errore che hai effettivamente. Se hai ulteriori informazioni sulla distribuzione degli errori, suppongo che potresti usarlo e trovare uno stimatore della massima verosimiglianza più accurato.

"se l'unica cosa che sai del termine di errore è che ha una media di 0 e un valore assoluto atteso finito, allora questo è il presupposto della massima entropia" - ogni derivazione delle distribuzioni di entropia massima che ho visto deriva dalla distribuzione di Laplace come massima distribuzione per un valore assoluto atteso finito (noto), mentre il gaussiano è il massimo per un valore assoluto atteso finito (noto), vedi ad esempio stats.stackexchange.com/questions/82410/… hai citazioni che non sono d'accordo ?
Joe,

Sai, non lo so. Presumo che tu abbia ragione. (Anche se non riesco a capire come modificare il mio commento per qualche motivo)

14

Non c'è motivo per cui non si possa provare a minimizzare norme diverse da x ^ 2, ci sono stati interi libri scritti sulla regressione quantile, per esempio, che sta minimizzando più o meno | x | se lavori con la mediana. È generalmente più difficile da fare e, a seconda del modello di errore, potrebbe non fornire buoni stimatori (a seconda che ciò significhi stimatori MSE a bassa varianza o imparziali o bassi nel contesto).

Per quanto riguarda il motivo per cui preferiamo i momenti interi rispetto ai momenti con valori reali, la ragione principale è probabile che mentre i poteri interi di numeri reali si traducono sempre in numeri reali, i poteri non interi di numeri reali negativi creano numeri complessi, richiedendo quindi l'uso di un valore assoluto. In altre parole, mentre il 3o momento di una variabile casuale con valore reale è reale, il 3.2o momento non è necessariamente reale e quindi causa problemi di interpretazione.

Oltre a quello...

  1. Le espressioni analitiche per i momenti interi di variabili casuali sono in genere molto più facili da trovare rispetto ai momenti con valori reali, sia generando funzioni o altri metodi. I metodi per minimizzarli sono quindi più facili da scrivere.
  2. L'uso di momenti interi porta a espressioni più trattabili di momenti con valori reali.
  3. Non riesco a pensare a una ragione convincente che (ad esempio) il 1,95esimo momento del valore assoluto di X fornirebbe proprietà di adattamento migliori rispetto (ad esempio) al 2o momento di X, anche se potrebbe essere interessante indagare
  4. Specifico per la norma L2 (o errore al quadrato), può essere scritto tramite prodotti dot, il che può portare a notevoli miglioramenti nella velocità di calcolo. È anche l'unico spazio Lp che è uno spazio di Hilbert, che è una bella caratteristica da avere.

8

Cerchiamo di ridurre al minimo la varianza che rimane nei descrittori. Perché varianza? Leggere questa domanda ; questo si accompagna anche all'assunto (per lo più silenzioso) che gli errori siano normalmente distribuiti.

Estensione:
due argomenti aggiuntivi:

  1. Per le varianze, abbiamo questa bella "legge" che la somma delle varianze è uguale alla varianza della somma, per i campioni non correlati. Se assumiamo che l'errore non sia correlato al caso, minimizzare il residuo dei quadrati funzionerà in modo diretto per massimizzare la varianza spiegata, che forse è una misura di qualità non così buona ma ancora popolare.

  2. Se assumiamo la normalità di un errore, lo stimatore dell'errore dei minimi quadrati è la massima probabilità.


1
La risposta in quell'altro thread non spiega davvero perché 2 è un valore migliore rispetto ad altri valori che sono molto vicini a 2 ma non sono numeri naturali.
Christian,

Penso di si; cercherò comunque di estendere la risposta.

Quindi, se gli errori non sono normalmente distribuiti, ma ad esempio secondo un'altra distribuzione stabile di Lévy, potrebbe essere utile utilizzare un esponente diverso da 2?
Raskolnikov,

Ricorda, la distribuzione normale è la più "cauta" per la varianza nota (perché ha la massima entropia tra tutte le densità con varianza fissa). Lascia il massimo da dire dai dati. O in altri termini, per insiemi di dati "di grandi dimensioni" con la stessa varianza, "devi" provare " incredibilmente duramente per ottenere una distribuzione diversa da una normale.
probabilityislogic

8

Nei minimi quadrati ordinari, la soluzione di (A'A) ^ (- 1) x = A'b minimizza la perdita di errore al quadrato ed è la soluzione di massima verosimiglianza.

Quindi, soprattutto perché la matematica è stata facile in questo caso storico.

Ma generalmente le persone minimizzano molte diverse funzioni di perdita , come esponenziale, logistica, cauchy, laplace, huber, ecc. Queste funzioni di perdita più esotiche richiedono generalmente molte risorse computazionali e non hanno soluzioni a forma chiusa (in generale), quindi stanno solo iniziando a diventare più popolari ora.


1
+1 per l'introduzione dell'idea di perdita. (Ma non sono "esponenziali", ecc., Le distribuzioni , non le funzioni di perdita?) Storicamente la perdita lineare fu il primo approccio formalmente sviluppato, nel 1750, e per esso era disponibile una soluzione geometrica semplice . Credo che Laplace abbia stabilito la relazione tra questa e la distribuzione a doppia esponenziale in una pubblicazione del 1809 (per la quale il MLE minimizzerà l'errore assoluto, non l'errore al quadrato). Pertanto, la perdita al quadrato non si distingue in modo univoco dai criteri di avere un MLE ed essere matematicamente facile.
whuber

Sono sia distribuzioni che funzioni di perdita in contesti diversi.
Joe,

Ho premuto invio troppo rapidamente sulla risposta precedente - la perdita esponenziale è ampiamente associata all'aumento (vedi la vista statistica di Boosting di Friedman Hastie e Tibshirani), dove si tratta di una perdita piuttosto che di una distribuzione, la regressione logistica corrisponde alla perdita del log, laplace è una distribuzione ma corrisponde alla perdita di valore assoluta - quindi per la maggior parte ero estremamente sciatto, grazie per averlo sottolineato. Ma mentre la perdita di L1 ha una soluzione geometrica, non è una forma analiticamente chiusa, quindi difficilmente chiamerei la sua soluzione facile.
Joe,

1

La mia comprensione è che, poiché stiamo cercando di ridurre al minimo gli errori, dobbiamo trovare un modo per non trovarci in una situazione in cui la somma della differenza negativa negli errori è uguale alla somma della differenza positiva negli errori ma non abbiamo trovato una buona misura. Facciamo questo quadrando la somma della differenza di errori, il che significa che la differenza negativa e positiva di errori diventano entrambi positivi (-1×-1=1). Se abbiamo sollevatoX alla potenza di qualsiasi cosa diversa da un numero intero positivo non affronteremmo questo problema perché gli errori non avrebbero lo stesso segno, o se aumentassimo alla potenza di qualcosa che non è un numero intero entreremmo nei regni del complesso numeri.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.