Perché quadrare la differenza invece di prendere il valore assoluto nella deviazione standard?


408

Nella definizione di deviazione standard, perché dobbiamo quadrare la differenza dalla media per ottenere la media (E) e riportare la radice quadrata alla fine? Non possiamo semplicemente prendere semplicemente il valore assoluto della differenza e ottenere il valore atteso (medio) di quelli, e ciò non mostrerebbe anche la variazione dei dati? Il numero sarà diverso dal metodo quadrato (il metodo del valore assoluto sarà più piccolo), ma dovrebbe comunque mostrare la diffusione dei dati. Qualcuno sa perché prendiamo questo approccio quadrato come standard?

La definizione di deviazione standard:

σ=E[(Xμ)2].

Non possiamo semplicemente prendere il valore assoluto invece ed essere ancora una buona misura?

σ=E[|Xμ|]


25
In un certo senso, la misurazione proposta è ampiamente utilizzata in caso di analisi dell'errore (qualità del modello), quindi si chiama MAE, "errore assoluto medio".

8
Nell'accettare una risposta mi sembra importante prestare attenzione al fatto che la risposta sia circolare. La distribuzione normale si basa su queste misurazioni della varianza dai termini di errore al quadrato, ma ciò non costituisce di per sé una giustificazione per l'utilizzo di (XM) ^ 2 su | XM |.
Russellpierce,

2
Pensi che il termine standard significhi che questo è lo standard oggi? Non è come chiedere perché il componente principale sia "principale" e non secondario?
Robin Girard,

51
Ogni risposta offerta finora è circolare. Si concentrano sulla facilità dei calcoli matematici (il che è carino ma non fondamentale) o sulle proprietà della distribuzione gaussiana (normale) e OLS. Intorno al 1800 Gauss iniziò con minimi quadrati e varianze e da quelli derivati la distribuzione Normale - c'è la circolarità. Una ragione veramente fondamentale che non è stata ancora invocata in nessuna risposta è il ruolo unico giocato dalla varianza nel Teorema del limite centrale . Un altro è l'importanza nella teoria decisionale di minimizzare la perdita quadratica.
whuber

2
Taleb sostiene il caso su Edge.org di ritirare la deviazione standard e usare la deviazione assoluta media.
Alex Holcombe,

Risposte:


188

Se l'obiettivo della deviazione standard è di riassumere la diffusione di un set di dati simmetrico (cioè in generale quanto dista ogni dato dalla media), allora abbiamo bisogno di un buon metodo per definire come misurare quella diffusione.

I vantaggi della quadratura includono:

  • La quadratura dà sempre un valore positivo, quindi la somma non sarà zero.
  • La quadratura enfatizza le differenze più grandi, una caratteristica che risulta essere sia positiva che negativa (si pensi all'effetto che hanno i valori anomali).

La quadratura tuttavia ha un problema come misura dello spread e cioè che le unità sono tutte quadrate, mentre potremmo preferire che lo spread sia nelle stesse unità dei dati originali (pensate a sterline quadrate, dollari quadrati o mele quadrate) . Quindi la radice quadrata ci consente di tornare alle unità originali.

Suppongo che potresti dire che la differenza assoluta assegna lo stesso peso alla diffusione dei dati mentre la quadratura enfatizza gli estremi. Tecnicamente sebbene, come altri hanno sottolineato, la quadratura rende molto più facile lavorare con l'algebra e offre proprietà che il metodo assoluto non ha (ad esempio, la varianza è uguale al valore atteso del quadrato della distribuzione meno il quadrato del media della distribuzione)

È importante notare, tuttavia, che non vi è alcun motivo per cui non si possa fare la differenza assoluta se questa è la propria preferenza su come si desidera visualizzare "diffusione" (una specie di come alcune persone vedono il 5% come una soglia magica per ivalori, quando in realtà dipende dalla situazione). In effetti, ci sono in effetti diversi metodi concorrenti per misurare la diffusione.p

Il mio punto di vista è quello di usare i valori al quadrato perché mi piace pensare a come si rapporta al teorema della statistica di Pitagora: ... questo mi aiuta anche a ricordare che quando si lavora con variabili casuali indipendenti , le varianze aggiungono, le deviazioni standard no. Ma questa è solo la mia preferenza soggettiva personale che uso principalmente solo come ausilio alla memoria, non posso ignorare questo paragrafo.c=a2+b2

Un'analisi molto più approfondita può essere letta qui .


72
"La quadratura dà sempre un valore positivo, quindi la somma non sarà zero." e anche i valori assoluti.
Robin Girard,

32
@robin girard: è corretto, quindi perché ho preceduto quel punto con "I vantaggi della quadratura includono". Non stavo insinuando che nulla riguardo ai valori assoluti in quella dichiarazione. Prendo in considerazione il tuo punto, prenderò in considerazione la possibilità di rimuoverlo / riformularlo se altri lo ritengono poco chiaro.
Tony Breyal,

15
Gran parte del campo delle statistiche affidabili è un tentativo di gestire l'eccessiva sensibilità ai valori anomali che è una conseguenza della scelta della varianza come misura della diffusione dei dati (tecnicamente scala o dispersione). en.wikipedia.org/wiki/Robust_statistics
Thylacoleo

5
L'articolo collegato nella risposta è un dio invia.
Traggatmot,

1
Penso che il paragrafo su Pitagora sia perfetto. Puoi pensare all'errore come un vettore in dimensioni, con è il numero di campioni. La dimensione in ogni dimensione è la differenza dalla media per quel campione. La lunghezza di quel vettore (Pitagora) è la radice dei quadrati sommati, cioè la deviazione standard. n [ ( x 1 - μ ) , ( x 2 - μ ) , ( x 3 - μ ) , . . . ]nn[(x1μ),(x2μ),(x3μ),...]
Arne Brasseur,

138

La differenza al quadrato ha proprietà matematiche più belle; è continuamente differenziabile (bello quando vuoi minimizzarlo), è una statistica sufficiente per la distribuzione gaussiana, ed è (una versione di) la norma L2 che è utile per dimostrare la convergenza e così via.

La deviazione assoluta media (la notazione del valore assoluto che suggerisci) viene anche utilizzata come misura di dispersione, ma non è "ben educata" come l'errore al quadrato.


2
detto "è continuamente differenziabile (bello quando vuoi minimizzarlo)" vuoi dire che il valore assoluto è difficile da ottimizzare?
Robin Girard,

29
@robin: mentre la funzione del valore assoluto è continua ovunque, la sua prima derivata non lo è (in x = 0). Ciò rende più difficile l'ottimizzazione analitica.
Vince il

12
Sì, ma trovare il numero effettivo desiderato, anziché solo un suo descrittore, è più facile in caso di perdita quadrata dell'errore. Considera il caso 1 dimensione; puoi esprimere il minimizzatore dell'errore al quadrato con la media: O (n) operazioni e forma chiusa. Puoi esprimere il valore del minimizer di errore assoluto da parte della mediana, ma non esiste una soluzione a forma chiusa che ti dica qual è il valore mediano; richiede un ordinamento da trovare, che è qualcosa come O (n log n). Le soluzioni dei minimi quadrati tendono ad essere una semplice operazione di tipo plug-and-chug, le soluzioni a valore assoluto di solito richiedono più lavoro per trovare.
Rich

5
@Rich: sia la varianza che la mediana possono essere trovate in tempo lineare, e ovviamente non più velocemente. La mediana non richiede l'ordinamento.
Neil G,


84

Un modo in cui puoi pensare a questo è che la deviazione standard è simile a una "distanza dalla media".

Confronta questo con le distanze nello spazio euclideo - questo ti dà la vera distanza, dove ciò che hai suggerito (che, tra l'altro, è la deviazione assoluta ) è più simile a un calcolo della distanza di Manhattan .


17
Bella analogia dello spazio euclideo!
c4il

2
Solo che in una dimensione le norme e sono la stessa cosa, no? l 2l1l2
nulla101

5
@ naught101: non è una dimensione, ma piuttosto dimensioni in cui è il numero di campioni. La deviazione standard e la deviazione assoluta sono rispettivamente (in scala) le distanze e , tra i due punti e dove è il significare. n l 2 l 1 ( x 1 , x 2 , , x n ) ( μ , μ , , μ ) μnnl2l1(x1,x2,,xn)(μ,μ,,μ)μ
ShreevatsaR,

1
Questo dovrebbe essere modificato come distanza minima dalla media. È essenzialmente un'equazione di Pitagora.
Giovanni

56

Il motivo per cui calcoliamo la deviazione standard invece dell'errore assoluto è che si presume che l'errore sia distribuito normalmente . Fa parte del modello.

Supponiamo che tu stia misurando lunghezze molto piccole con un righello, quindi la deviazione standard è una metrica errata per errore perché sai che non misurerai mai accidentalmente una lunghezza negativa. Una metrica migliore sarebbe quella per aiutare ad adattare una distribuzione Gamma alle tue misurazioni:

log(E(x))E(log(x))

Come la deviazione standard, anche questa non è negativa e differenziabile, ma è una statistica di errore migliore per questo problema.


3
Mi piace la tua risposta. La sd non è sempre la migliore statistica.
RockScience,

2
Grande contro-esempio su quando la deviazione standard non è il modo migliore di pensare alle dimensioni delle fluttuazioni.
Hbar,

Non dovresti avere un segno opposto sulla quantità per produrre una misura positiva - usando un convesso invece di concavo ? log xlogxlogx
AS

@AS No, è già sempre positivo. È zero quando tutti i campioni sono uguali, altrimenti la sua grandezza misura la variazione. x
Neil G,

Ti stai sbagliando. per concavo . gE(g(X))g(E(X))g
AS

25

La risposta che mi ha soddisfatto di più è che cade naturalmente dalla generalizzazione di un campione allo spazio euclideo n-dimensionale. È certamente discutibile se si debba fare qualcosa, ma in ogni caso:

Supponi che le tue misurazioni siano ciascuna un asse in . Quindi i tuoi dati definiscono un punto in quello spazio. Ora potresti notare che i dati sono tutti molto simili tra loro, quindi puoi rappresentarli con un singolo parametro di posizione che è costretto a giacere sulla linea definita da . Proiettando il tuo punto dati su questa linea ottieni , e la distanza dal punto proiettato al punto dati effettivo è.nXiRnxixμXi=μμ^=x¯μ^1n1nσ^=xμ^1

Questo approccio fornisce anche un'interpretazione geometrica per la correlazione, .ρ^=cos(x~,y~)


7
Questo è corretto e accattivante. Tuttavia, alla fine sembra solo riformulare la domanda senza effettivamente rispondere: vale a dire, perché dovremmo usare la distanza euclidea (L2)?
whuber

20
Le deviazioni standard di @sesqu non divennero comuni fino a quando Gauss nel 1809 non derivò la sua deviazione omonima usando l'errore al quadrato, anziché l'errore assoluto, come punto di partenza. Tuttavia, ciò che li ha spinti in alto (credo) è stata la teoria della regressione di Galton (a cui accenni) e la capacità dell'ANOVA di scomporre somme di quadrati - il che equivale a una riaffermazione del teorema di Pitagora, una relazione goduta solo dal Norma L2. Così la DS divenne una misura omnibus naturale di diffusione sostenuta nel 1925 da "Metodi statistici per i ricercatori" di Fisher ed eccoci qui, 85 anni dopo.
whuber

13
(+1) Continuando nella vena di @ whuber, scommetterei che Student avesse pubblicato un documento nel 1908 intitolato "Probabile errore della media - Ehi, ragazzi, date un'occhiata a quel MAE nel denominatore!" allora le statistiche avrebbero ormai un volto completamente diverso. Ovviamente, non ha pubblicato un articolo del genere, e ovviamente non poteva averlo, perché il MAE non vanta tutte le belle proprietà di S ^ 2. Uno di questi (legato allo Studente) è la sua indipendenza della media (nel caso normale), che ovviamente è una riaffermazione dell'ortogonalità, che ci riporta a L2 e al prodotto interno.

3
Questa risposta è stata stimolante e penso che il mio modo preferito di vederla. In 1-D è difficile capire perché quadrare la differenza sia vista come migliore. Ma in più dimensioni (o anche solo 2) si può facilmente vedere che la distanza euclidea (quadratura) è preferibile alla distanza di Manhattan (somma del valore assoluto delle differenze).
thecity2

1
@whuber Puoi spiegarci cosa significa "la linea definita da Xᵢ = μ"? È la linea che passa attraverso l'origine e il punto (μ, μ, ..., μ)? Inoltre, dove posso leggere di più al riguardo?
Arch Stanton,

18

La quadratura della differenza dalla media ha un paio di ragioni.

  • La varianza è definita come il secondo momento della deviazione (il RV qui è ) e quindi il quadrato come momenti sono semplicemente le aspettative di potenze superiori della variabile casuale.(xμ)

  • Avere un quadrato al contrario della funzione del valore assoluto dà una bella funzione continua e differenziabile (il valore assoluto non è differenziabile a 0), il che la rende la scelta naturale, specialmente nel contesto dell'analisi di stima e regressione.

  • Anche la formulazione quadrata cade naturalmente dai parametri della distribuzione normale.


17

Ancora un altro motivo (oltre a quelli eccellenti sopra) viene dallo stesso Fisher, che ha dimostrato che la deviazione standard è più "efficiente" della deviazione assoluta. Qui, efficiente ha a che fare con quanto una statistica fluttuerà in valore su diversi campionamenti da una popolazione. Se la tua popolazione è normalmente distribuita, la deviazione standard di vari campioni da quella popolazione tenderà, in media, a darti valori abbastanza simili tra loro, mentre la deviazione assoluta ti darà numeri che si estendono un po 'di più. Ora, ovviamente, questo è in circostanze ideali, ma questo motivo ha convinto molte persone (insieme alla matematica ad essere più pulita), quindi la maggior parte delle persone ha lavorato con deviazioni standard.


6
L'argomento dipende dai dati normalmente distribuiti. Se assumiamo che la popolazione abbia una distribuzione "doppia esponenziale", allora la deviazione assoluta è più efficiente (in effetti è una statistica sufficiente per la scala)
Probislogic

7
Sì, come ho affermato, "se la tua popolazione è normalmente distribuita".
Eric Suh,

Oltre ad assumere una distribuzione normale, la prova di Fisher presuppone misurazioni senza errori. Con piccoli errori come l'1% la situazione si inverte e la deviazione assoluta media è più efficiente della deviazione standard
juanrga

14

Solo così la gente lo sa, c'è una domanda di Math Overflow sullo stesso argomento.

Perché-è-da-so-cool-a-quadri-numeri-in-termini-di-ricerca-the-deviazione standard

Il messaggio da asporto è che l'uso della radice quadrata della varianza porta a una matematica più semplice. Una risposta simile è data da Rich e Reed sopra.


3
La "matematica più semplice" non è un requisito essenziale quando vogliamo che le nostre formule e i nostri valori riflettano più realmente un determinato insieme di dati. I computer fanno comunque tutto il duro lavoro.
Dan W,

Definire pi come 3.14 semplifica la matematica, ma ciò non lo rende giusto.
James,

13

varianze sono additive: per variabili casuali indipendenti , X1,,Xn

var(X1++Xn)=var(X1)++var(Xn).

Nota cosa rende possibile: supponi di lanciare una moneta giusta 900 volte. Qual è la probabilità che il numero di teste che ottengo sia compreso tra 440 e 455 inclusi? Basta trovare il numero previsto di teste ( ) e la varianza del numero di teste ( ), quindi trovare la probabilità con una distribuzione normale (o gaussiana) con aspettativa e la deviazione standard è compresa tra e . Abraham de Moivre ha fatto questo con lanci di monete nel 18 ° secolo, dimostrando quindi che la curva a forma di campana vale qualcosa.450225=15245015439.5455.5


Le deviazioni assolute medie non sono additive allo stesso modo delle varianze?
Russellpierce,

6
No, non lo sono.
Michael Hardy,

10

Penso che il contrasto tra l'utilizzo di deviazioni assolute e deviazioni quadrate diventi più chiaro quando si supera una singola variabile e si pensa alla regressione lineare. C'è una bella discussione su http://en.wikipedia.org/wiki/Least_absolute_deviations , in particolare la sezione "Contrasti dei minimi quadrati con meno deviazioni assolute", che collega ad alcuni esercizi degli studenti con una serie ordinata di applet su http: // www .math.wpi.edu / Course_Materials / SAS / lablets / 7.3 / 73_choices.html .

Riassumendo, le deviazioni meno assolute sono più robuste rispetto ai valori anomali rispetto ai minimi quadrati ordinari, ma possono essere instabili (una piccola modifica anche in un singolo dato può dare una grande modifica alla linea adattata) e non ha sempre una soluzione unica - può esserci un'intera gamma di linee adattate. Anche le deviazioni meno assolute richiedono metodi iterativi, mentre i minimi quadrati ordinari hanno una semplice soluzione a forma chiusa, anche se non è un grosso problema ora come lo era ai tempi di Gauss e Legendre, ovviamente.


l'argomento "soluzione unica" è piuttosto debole, significa che esiste più di un valore ben supportato dai dati. Inoltre, la penalizzazione dei coefficienti, come L2, risolverà il problema dell'unicità e anche il problema della stabilità.
probabilityislogic

10

Ci sono molte ragioni; probabilmente il principale è che funziona bene come parametro di distribuzione normale.


4
Sono d'accordo. La deviazione standard è il modo giusto per misurare la dispersione se si assume una distribuzione normale. E molte distribuzioni e dati reali sono approssimativamente normali.
Łukasz Lew,

2
Non credo che dovresti dire "parametro naturale": i parametri naturali della distribuzione normale sono la precisione media e media. ( en.wikipedia.org/wiki/Natural_parameter )
Neil G

1
@NeilG buon punto; Stavo pensando al significato "casual" qui. Penserò a qualche parola migliore.

8

In molti modi, l'uso della deviazione standard per riassumere la dispersione sta saltando verso una conclusione. Si potrebbe dire che SD assume implicitamente una distribuzione simmetrica a causa del suo uguale trattamento della distanza al di sotto della media rispetto alla distanza al di sopra della media. La DS è sorprendentemente difficile da interpretare per i non statistici. Si potrebbe sostenere che la differenza media di Gini ha un'applicazione più ampia ed è significativamente più interpretabile. Non richiede di dichiarare la propria scelta di una misura di tendenza centrale come l'uso di SD fa per la media. La differenza media di Gini è la differenza assoluta media tra due diverse osservazioni. Oltre ad essere robusto e facile da interpretare, risulta essere 0,98 efficiente quanto SD se la distribuzione fosse effettivamente gaussiana.


2
Solo per aggiungere al suggerimento di @ Frank su Gini, c'è un bel documento qui: projecteuclid.org/download/pdf_1/euclid.ss/1028905831 Esamina varie misure di dispersione e fornisce anche una prospettiva storica informativa.
Thomas Speidel,

1
Mi piacciono anche queste idee, ma esiste una definizione parallela meno nota della varianza (e quindi della SD) che non fa riferimento a mezzi come parametri di posizione. La varianza è la metà del quadrato medio su tutte le differenze a coppie tra valori, così come la differenza media di Gini si basa sui valori assoluti di tutta la differenza a coppie.
Nick Cox,

7

La stima della deviazione standard di una distribuzione richiede di scegliere una distanza.
È possibile utilizzare una delle seguenti distanze:

dn((X)i=1,,I,μ)=(|Xμ|n)1/n

Usiamo solitamente la distanza euclidea naturale ( ), che è quella che tutti usano nella vita quotidiana. La distanza che proponi è quella con . Entrambi sono buoni candidati ma sono diversi.n=2n=1

Si potrebbe decidere di usare anche .n=3

Non sono sicuro che ti piacerà la mia risposta, il mio punto contrario agli altri non è dimostrare che è meglio. Penso che se si desidera stimare la deviazione standard di una distribuzione, è possibile utilizzare assolutamente una distanza diversa.n=2


6

Dipende da cosa stai parlando quando dici "diffusione dei dati". Per me questo potrebbe significare due cose:

  1. La larghezza di una distribuzione di campionamento
  2. La precisione di una determinata stima

Per il punto 1) non vi è alcun motivo particolare per utilizzare la deviazione standard come misura di diffusione, tranne quando si dispone di una distribuzione di campionamento normale. La misura è una misura più appropriata nel caso di una distribuzione di campionamento di Laplace . La mia ipotesi è che la deviazione standard venga utilizzata qui a causa dell'intuizione riportata dal punto 2). Probabilmente anche a causa del successo della modellazione dei minimi quadrati in generale, per la quale la deviazione standard è la misura appropriata. Probabilmente anche perché il calcolo di è generalmente più semplice del calcolo di per la maggior parte delle distribuzioni.E(|Xμ|)E(X2)E(|X|)

Ora, per il punto 2) c'è un ottimo motivo per usare la varianza / deviazione standard come misura della diffusione, in un caso particolare, ma molto comune. Puoi vederlo nell'approssimazione di Laplace a un posteriore. Con i dati e le informazioni precedenti , scrivi il posteriore per un parametro come:DIθ

p(θDI)=exp(h(θ))exp(h(t))dth(θ)log[p(θI)p(DθI)]

Ho usato come variabile fittizia per indicare che il denominatore non dipende da . Se il posteriore ha un singolo massimo ben arrotondato (cioè non troppo vicino a un "confine"), possiamo espandere la probabilità di log circa il suo massimo . Se prendiamo i primi due termini dell'espansione di Taylor otteniamo (usando prime per la differenziazione):tθθmax

h(θ)h(θmax)+(θmaxθ)h(θmax)+12(θmaxθ)2h(θmax)

Ma abbiamo qui che, poiché è un "ben arrotondato", , quindi abbiamo:θmaxh(θmax)=0

h(θ)h(θmax)+12(θmaxθ)2h(θmax)

Se inseriamo questa approssimazione otteniamo:

p(θDI)exp(h(θmax)+12(θmaxθ)2h(θmax))exp(h(θmax)+12(θmaxt)2h(θmax))dt

=exp(12(θmaxθ)2h(θmax))exp(12(θmaxt)2h(θmax))dt

Quale, ma per notazione è una distribuzione normale, con media uguale a e varianza uguale aE(θDI)θmax

V(θDI)[h(θmax)]1

( è sempre positivo perché abbiamo un massimo ben arrotondato). Quindi questo significa che nei "problemi regolari" (che è la maggior parte di essi), la varianza è la quantità fondamentale che determina l'accuratezza delle stime per . Quindi, per le stime basate su una grande quantità di dati, la deviazione standard ha molto senso in teoria - ti dice praticamente tutto ciò che devi sapere. Sostanzialmente si applica lo stesso argomento (con le stesse condizioni richieste) nel caso multidimensionale con essendo una matrice hessiana. Anche qui le voci diagonali sono essenzialmente variazioni.h(θmax)θh(θ)jk=h(θ)θjθk

Il frequentatore che utilizza il metodo della massima verosimiglianza giungerà essenzialmente alla stessa conclusione perché l'MLE tende ad essere una combinazione ponderata dei dati e per grandi campioni si applica il Teorema del limite centrale e in pratica si ottiene lo stesso risultato se si prende ma con e scambiati: (vedi se riesci a indovinare quale paradigma preferisco: P). Quindi, in entrambi i casi, nella stima dei parametri la deviazione standard è un'importante misura teorica della diffusione.p(θI)=1θθmax

p(θmaxθ)N(θ,[h(θmax)]1)

6

"Perché quadrare la differenza" invece di "assumere valore assoluto"? Per rispondere in modo molto preciso, esiste una letteratura che fornisce i motivi per cui è stata adottata e il motivo per cui la maggior parte di tali motivi non è valida. "Non possiamo semplicemente prendere il valore assoluto ...?". Sono a conoscenza della letteratura in cui la risposta è affermativa, e si dice che sia vantaggiosa.

L'autore Gorard afferma, in primo luogo, che l'uso dei quadrati era stato precedentemente adottato per motivi di semplicità di calcolo, ma che tali motivi originali non valgono più. Gorard afferma, in secondo luogo, che l'OLS è stato adottato perché Fisher ha scoperto che i risultati in campioni di analisi che utilizzavano OLS presentavano deviazioni minori rispetto a quelle che utilizzavano differenze assolute (approssimativamente dichiarate). Pertanto, sembrerebbe che OLS possa avere benefici in alcune circostanze ideali; tuttavia, Gorard procede a notare che esiste un certo consenso (e afferma Fisher concordato) che in condizioni del mondo reale (misurazione imperfetta di osservazioni, distribuzioni non uniformi, studi su una popolazione senza inferenza da un campione), l'uso dei quadrati è peggiore di differenze assolute.

La risposta di Gorard alla tua domanda "Non possiamo semplicemente prendere il valore assoluto della differenza e ottenere il valore atteso (medio) di quelli?" è sì. Un altro vantaggio è che l'uso delle differenze produce misure (misure di errori e variazioni) che sono correlate al modo in cui sperimentiamo tali idee nella vita. Gorard afferma che le persone che dividono il conto del ristorante in modo uniforme e alcuni potrebbero notare intuitivamente che questo metodo è ingiusto. Nessuno lì quadrerà gli errori; le differenze sono il punto.

Infine, usando le differenze assolute, osserva, tratta ogni osservazione in modo equo, mentre per contrasto la quadratura delle differenze dà alle osservazioni un peso scarsamente superiore a quello previsto, il che è come consentire che alcune osservazioni vengano incluse nello studio più volte. In sintesi, la sua spinta generale è che oggi non ci sono molte ragioni vincenti per usare i quadrati e che, al contrario, usare le differenze assolute ha dei vantaggi.

Riferimenti:


1
Grazie @Jen, questo mi ricorda la storia della tastiera QWERTY. Ehi, come mai ci vuole così tanto tempo per digitare QWERTY?
toto_tico,

5

Perché i quadrati possono consentire l'uso di molte altre operazioni o funzioni matematiche più facilmente dei valori assoluti.

Esempio: i quadrati possono essere integrati, differenziati, possono essere utilizzati in modo trigonometrico, logaritmico e altre funzioni, con facilità.


2
Mi chiedo se ci sia una profezia che si autoavvera qui. Otteniamo
Probislogic il

5

Quando si aggiungono variabili casuali, si aggiungono le loro varianze, per tutte le distribuzioni. La varianza (e quindi la deviazione standard) è una misura utile per quasi tutte le distribuzioni e non si limita in alcun modo alle distribuzioni gaussiane (alias "normali"). Ciò favorisce l'utilizzo come misura di errore. La mancanza di unicità è un problema serio con differenze assolute, in quanto vi è spesso un numero infinito di "accoppiamenti di uguale misura", eppure chiaramente "quello nel mezzo" è il più realisticamente favorito. Inoltre, anche con i computer di oggi, l'efficienza computazionale conta. Lavoro con set di dati di grandi dimensioni e il tempo della CPU è importante. Tuttavia, non esiste una singola "migliore" misura assoluta di residui, come sottolineato da alcune risposte precedenti. A volte circostanze diverse richiedono misure diverse.


2
Non sono convinto che le varianze siano molto utili per le distribuzioni asimmetriche.
Frank Harrell,

Che dire di una coppia di "semi-varianze", una verso l'alto e una verso il basso?
kjetil b halvorsen,

3

Naturalmente puoi descrivere la dispersione di una distribuzione in qualsiasi modo significativo (deviazione assoluta, quantili, ecc.).

Un fatto interessante è che la varianza è il secondo momento centrale e ogni distribuzione è descritta in modo univoco dai suoi momenti se esistono. Un altro fatto interessante è che la varianza è matematicamente molto più tracciabile rispetto a qualsiasi metrica comparabile. Un altro fatto è che la varianza è uno dei due parametri della distribuzione normale per la solita parametrizzazione, e la distribuzione normale ha solo 2 momenti centrali diversi da zero che sono quei due parametri. Anche per distribuzioni non normali può essere utile pensare in un quadro normale.

A mio avviso, la ragione per cui esiste la deviazione standard in quanto tale è che nelle applicazioni appare regolarmente la radice quadrata della varianza (tale da standardizzare una variante casuale), che necessitava di un nome per essa.


1
Se ricordo bene, la distribuzione log-normale non è definita in modo univoco dai suoi momenti.
probabilityislogic

1
@probabilityislogic, in verità, è vero, vedi en.wikipedia.org/wiki/Log-normal_distribution nella sezione "Funzione caratteristica e funzione generatrice dei momenti".
kjetil b halvorsen,

1

Un approccio diverso e forse più intuitivo è quando si pensa alla regressione lineare rispetto alla regressione mediana.

Supponiamo che il nostro modello sia che . Quindi troviamo b minimizzando il residuo quadrato atteso, .E(y|x)=xββ=argminbE(yxb)2

Se invece il nostro modello è quello mediano , allora troviamo le stime dei nostri parametri minimizzando i residui assoluti ,.(y|x)=xββ=argminbE|yxb|

In altre parole, se utilizzare l'errore assoluto o al quadrato dipende dal fatto che si desideri modellare il valore atteso o il valore mediano.

Se la distribuzione, ad esempio, mostra un'eteroscedasticità distorta, allora c'è una grande differenza nel modo in cui la pendenza del valore atteso di cambia rispetto a a come la pendenza è per il valore mediano di .yxy

Koenker e Hallock hanno un bel pezzo sulla regressione quantile, in cui la regressione mediana è un caso speciale: http://master272.com/finance/QR/QRJEP.pdf .


0

La mia ipotesi è questa: la maggior parte delle popolazioni (distribuzioni) tendono a riunirsi attorno alla media. Più un valore è lontano dalla media, più raro è. Al fine di esprimere adeguatamente quanto "fuori linea" sia un valore, è necessario tener conto sia della sua distanza dalla media che della sua rarità (di solito parlando). La quadratura della differenza dalla media fa questo, rispetto ai valori che hanno deviazioni minori. Una volta calcolata la media di tutte le varianze, allora è OK prendere la radice quadrata, che riporta le unità alle loro dimensioni originali.


2
Questo non spiega perché non puoi semplicemente prendere il valore assoluto della differenza. Ciò sembra concettualmente più semplice alla maggior parte delle statistiche di 101 studenti, e "prenderebbe in considerazione sia la sua distanza dalla media sia la sua rarità (normalmente parlando) dell'evento".
gung

Penso che il valore assoluto della differenza esprimerebbe solo la differenza dalla media e non terrebbe conto del fatto che grandi differenze sono doppiamente distruttive per una distribuzione normale.
Samuel Berry,

2
Perché è "doppiamente distruttiva" importante e non, per esempio, "triplicamente distruttiva" o "quadruplicamente distruttiva"? Sembra che questa risposta sostituisca semplicemente la domanda originale con una domanda equivalente.
whuber

0

La quadratura amplifica le deviazioni più grandi.

Se il tuo campione ha valori che sono in tutto il grafico, allora per portare il 68,2% all'interno della prima deviazione standard, la tua deviazione standard deve essere un po 'più ampia. Se i tuoi dati tendevano a cadere attorno alla media, σ può essere più stretto.

Alcuni dicono che è per semplificare i calcoli. L'uso della radice quadrata positiva del quadrato avrebbe risolto ciò in modo tale argomento non galleggiare.

|x|=x2

Quindi se l'obiettivo della semplicità algebrica sarebbe stato così:

σ=E[(xμ)2] che produce gli stessi risultati di .E[|xμ|]

Ovviamente la quadratura di questo ha anche l'effetto di amplificare gli errori esterni (doh!).


Sulla base di una bandiera che ho appena elaborato, sospetto che il downvoter non abbia capito completamente come questa risposta risponde alla domanda. Credo di vedere la connessione (ma potresti comunque considerare di apportare alcune modifiche per aiutare altri lettori ad apprezzare meglio i tuoi punti). Il tuo primo paragrafo, tuttavia, mi sembra un po 'un argomento circolare: il valore del 68,2% è derivato dalle proprietà della deviazione standard, quindi in che modo invocare quel numero aiuta a giustificare l'uso della SD invece di qualche altra norma di deviazione dalla media come un modo per quantificare la diffusione di una distribuzione? Lp
whuber

Il primo paragrafo è stato il motivo del mio voto negativo.
Alexis,

3
@Preston Thayne: poiché la deviazione standard non è il valore atteso di sqrt((x-mu)^2), la tua formula è fuorviante. Inoltre, solo perché la quadratura ha l'effetto di amplificare deviazioni più grandi non significa che questa è la ragione per preferire la varianza rispetto alla MAD . Semmai, questa è una proprietà neutra poiché spesso vogliamo qualcosa di più robusto come il MAD . Infine, il fatto che la varianza sia matematicamente più trattabile rispetto al MAD è un problema molto più profondo dal punto di vista matematico di quanto tu abbia indicato in questo post.
Steve S,

0

Perché quadrare la differenza invece di prendere il valore assoluto nella deviazione standard?

Quadriamo la differenza delle x dalla media perché la distanza euclidea, proporzionale alla radice quadrata dei gradi di libertà (numero di x, in una misura della popolazione), è la migliore misura di dispersione.

Calcolo della distanza

Qual è la distanza dal punto 0 al punto 5?

  • 50=5 ,
  • |05|=5 e
  • 52=5

Ok, è banale perché è una singola dimensione.

Che ne dici della distanza di un punto dal punto 0, 0 al punto 3, 4?

Se possiamo andare solo in 1 dimensione alla volta (come negli isolati), aggiungiamo semplicemente i numeri. (Questa è a volte conosciuta come la distanza di Manhattan).

Ma che dire di andare in due dimensioni contemporaneamente? Quindi (dal teorema di Pitagora che abbiamo imparato tutti al liceo), quadriamo la distanza in ogni dimensione, sommiamo i quadrati e quindi prendiamo la radice quadrata per trovare la distanza dall'origine al punto.

32+42=25=5

Che ne dici della distanza da un punto a 0, 0, 0 al punto 1, 2, 2?

Questo è solo

12+22+22=9=3

perché la distanza per le prime due x costituisce la gamba per calcolare la distanza totale con la x finale.

x12+x222+x32=x12+x22+x32

Possiamo continuare ad estendere la regola della quadratura della distanza di ogni dimensione, questo generalizza a quella che chiamiamo una distanza euclidea, per misurazioni ortogonali nello spazio iperdimensionale, in questo modo:

distance=i=1nxi2

e quindi la somma dei quadrati ortogonali è la distanza al quadrato:

distance2=i=1nxi2

Cosa rende una misura ortogonale (o ad angolo retto) ad un'altra? La condizione è che non vi sia alcuna relazione tra le due misurazioni. Vorremmo cercare che queste misurazioni fossero indipendenti e distribuite individualmente , ( iid ).

Varianza

Ora ricorda la formula per la varianza della popolazione (dalla quale otterremo la deviazione standard):

σ2=i=1n(xiμ)2n

Se abbiamo già centrato i dati su 0 sottraendo la media, abbiamo:

σ2=i=1n(xi)2n

Quindi vediamo che la varianza è solo la distanza al quadrato divisa per il numero di gradi di libertà (il numero di dimensioni su cui le variabili sono libere di variare). Questo è anche il contributo medio alla per misura. "Varianza quadrata media" sarebbe anche un termine appropriato.distance2

Deviazione standard

Quindi abbiamo la deviazione standard, che è solo la radice quadrata della varianza:

σ=i=1n(xiμ)2n

Che è equivalentemente, la distanza , divisa per la radice quadrata dei gradi di libertà:

σ=i=1n(xi)2n

Deviazione assoluta media

Mean Absolute Deviation (MAD), è una misura della dispersione che utilizza la distanza di Manhattan, ovvero la somma dei valori assoluti delle differenze dalla media.

MAD=i=1n|xiμ|n

Ancora una volta, supponendo che i dati siano centrati (la media sottratta) abbiamo la distanza di Manhattan divisa per il numero di misurazioni:

MAD=i=1n|xi|n

Discussione

  • La deviazione assoluta media è circa .8 volte (in realtà2/π ) la dimensione della deviazione standard per un set di dati normalmente distribuito.
  • Indipendentemente dalla distribuzione, la deviazione assoluta media è inferiore o uguale alla deviazione standard. MAD comprende la dispersione di un set di dati con valori estremi, rispetto alla deviazione standard.
  • La deviazione assoluta media è più robusta per i valori anomali (vale a dire che i valori anomali non hanno un grande effetto sulla statistica come sulla deviazione standard.
  • Dal punto di vista geometrico, se le misurazioni non sono ortogonali tra loro (iid) - per esempio, se fossero positivamente correlate, la deviazione assoluta media sarebbe una statistica descrittiva migliore rispetto alla deviazione standard, che si basa sulla distanza euclidea (sebbene questo sia generalmente considerato corretto ).

Questa tabella riflette le informazioni di cui sopra in un modo più conciso:

MADσsizeσMADsize,N.8×σ1.25×MADoutliersrobustinfluencednot i.i.d.robustok

Commenti:

Hai un riferimento per "la deviazione assoluta media è circa .8 volte la dimensione della deviazione standard per un set di dati normalmente distribuito"? Le simulazioni che sto eseguendo mostrano che questo non è corretto.

Ecco 10 simulazioni di un milione di campioni dalla distribuzione normale standard:

>>> from numpy.random import standard_normal
>>> from numpy import mean, absolute
>>> for _ in range(10):
...     array = standard_normal(1_000_000)
...     print(numpy.std(array), mean(absolute(array - mean(array))))
... 
0.9999303226807994 0.7980634269273035
1.001126461808081 0.7985832977798981
0.9994247275533893 0.7980171649802613
0.9994142105335478 0.7972367136320848
1.0001188211817726 0.798021564315937
1.000442654481297 0.7981845236910842
1.0001537518728232 0.7975554993742403
1.0002838369191982 0.798143108250063
0.9999060114455384 0.797895284109523
1.0004871065680165 0.798726062813422

Conclusione

Preferiamo le differenze quadrate nel calcolare una misura di dispersione perché possiamo sfruttare la distanza euclidea, il che ci dà una migliore statistica descrittiva della dispersione. Quando ci sono valori relativamente più estremi, la distanza euclidea rappresenta quello nella statistica, mentre la distanza di Manhattan dà ad ogni misura lo stesso peso.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.