Deviazione assoluta media vs. deviazione standard


35

Nel libro di testo "New Comprehensive Mathematics for O Level" di Greer (1983), vedo una deviazione media calcolata in questo modo:

Riassumi le differenze assolute tra i singoli valori e la media. Quindi ottenere la sua media. Nel capitolo viene usato il termine deviazione media .

Ma recentemente ho visto diversi riferimenti che usano il termine deviazione standard e questo è ciò che fanno:

Calcola i quadrati delle differenze tra i singoli valori e la media. Quindi ottieni la loro media e infine la radice della risposta.

Ho provato entrambi i metodi su un insieme comune di dati e le loro risposte differiscono. Non sono uno statistico. Mi sono confuso mentre cercavo di insegnare la deviazione ai miei figli.

Quindi, in breve, i termini deviazione standard e deviazione media sono gli stessi o il mio vecchio libro di testo è sbagliato?


2
Le due quantità differiscono. Pesano i dati in modo diverso. La deviazione standard sarà maggiore ed è relativamente più influenzata da valori maggiori. La deviazione standard (in particolare la versione con denominatore n) può essere considerata una deviazione quadrata radice-media. Le deviazioni standard sono più comunemente utilizzate.
Glen_b

6
Molto strettamente correlati : stats.stackexchange.com/questions/118/… .
whuber


1
Per inciso, uno dei motivi per cui le persone tendono a preferire la deviazione standard è perché si aggiungono varianze di somme di variabili casuali non correlate (e anche quelle correlate hanno una formula semplice). Ciò non accade con deviazione media.
Glen_b -Restate Monica

2
@Alexis il fraseggio era scadente. Per variabili casuali indipendenti, Var (X + Y) = Var (X) + Var (Y). Questo fatto è usato ovunque (porta ai termini familiari quando si standardizzano le formule che coinvolgono mezzi, come ad esempio nelle statistiche t di un campione). Non esiste un fatto corrispondente in generale per la deviazione media. n
Glen_b

Risposte:


27

Entrambi rispondono fino a che punto i tuoi valori sono distribuiti attorno alla media delle osservazioni.

Un'osservazione che è 1 sotto la media è ugualmente "lontana" dalla media come un valore che è 1 sopra la media. Quindi dovresti trascurare il segno della deviazione. Questo può essere fatto in due modi:

  • Calcola il valore assoluto delle deviazioni e somma queste.

  • Quadrare le deviazioni e sommare questi quadrati. A causa del quadrato, dai più peso alle alte deviazioni, e quindi la somma di questi quadrati sarà diversa dalla somma dei mezzi.

Dopo aver calcolato la "somma delle deviazioni assolute" o la "radice quadrata della somma delle deviazioni quadrate", si fa una media per ottenere rispettivamente la "deviazione media" e la "deviazione standard".

La deviazione media viene usata raramente.


Quindi quando uno dice semplicemente "deviazione", significa "deviazione standard"?
entro il

Concordo sul fatto che 1 sopra o sotto indicherebbe un significativo "cambiamento" o "dispersione" dal punto di vista di un uomo comune. Ma quadrarlo darebbe valori più grandi e questo potrebbe non essere il mio "cambiamento reale". Forse mi sbaglio ma è così che lo vedo: /
itsols

Il più delle volte viene usato il termine deviazione standard (radice quadrata della varianza). Il calcolo dei quadrati viene in genere eseguito, poiché facilita molti altri calcoli.
Kasper,

1
@itsols Tecnicamente, dovresti sempre specificare quale tipo di statistica di deviazione stai calcolando per il set di dati - la parola deviazione da sola dovrebbe riferirsi alla deviazione di un singolo punto dati dalla media (nel modo in cui Kasper lo usa nella risposta ).
AmeliaBR,

@itsols, +1 ad Amelia. In effetti, nessuno dice di una statistica del set di dati come semplicemente "deviazione". Una statistica è "deviazione assoluta media" o "radice della deviazione quadrata media" o simile.
ttnphns,

15

Oggi, i valori statistici sono calcolati prevalentemente da programmi per computer (Excel, ...), non più da calcolatori portatili. Quindi, direi che il calcolo della "deviazione media" non è più ingombrante del calcolo della "deviazione standard". Sebbene la deviazione standard possa avere "... proprietà matematiche che lo rendono più utile in statistica", in realtà è una distorsione del concetto di varianza da una media, poiché conferisce un peso extra ai punti di dati lontani dalla media. Potrebbe volerci un po 'di tempo, ma spero, per esempio, che gli statistici tornino a usare più spesso la "deviazione media" quando discutono della distribuzione tra punti dati - rappresenta in modo più accurato il modo in cui pensiamo effettivamente alla distribuzione.


Fai un'affermazione straordinaria su come le persone (statisticamente qualificate) "pensano realmente". Qual è la fonte delle tue informazioni al riguardo?
whuber

7
La fonte è semplicemente gente a cui ho messo in discussione questo argomento, così come me stesso. Alla domanda: come si immagina la variazione in questo set di dati? la risposta era sempre espressa in termini di distanza lineare dalla media - la risposta non includeva mai quadrati o radici quadrate. Certo, sono un ingegnere, non uno "statistico", ma chiederei a chiunque altro di mettersi alla prova su questo argomento. Sì, adoriamo la matematica della deviazione standard: è divertente, ma è davvero così che immagini la deviazione dalla media?
andyl,

2
Dipende dallo scopo. Per l'esplorazione dei dati, tendo a utilizzare stime di dispersione solide e basate sul rango, come le deviazioni mediane dai mediani, che nello spirito sono vicine alla tua proposta. Ma per molti altri lavori, specialmente quando si valuta (anche mentalmente) il potenziale per la significatività statistica, si stima la dimensione del campione appropriata, si capisce il valore delle informazioni e si decide tra le procedure statistiche concorrenti, pensare in termini di varianze (e quindi deviazioni standard) è essenziale. Le deviazioni medie non possono sostituirsi, come dimostra chiaramente la matematica.
whuber

1
Dai un'occhiata a questo documento .
Pete,

@Pete Come ci sei arrivato?
Vicrobot

9

Entrambi misurano lo stesso concetto, ma non sono uguali.

1n|xix¯|1n(xix¯)2

a+ba+b
|xix¯|=(xix¯)2(xix¯)2

n

1n(xix¯)2

Il motivo per cui si preferisce la deviazione standard è perché è matematicamente più facile lavorare in un secondo momento, quando i calcoli diventano più complicati.


3
Il valore assoluto di una somma non è , in generale, uguale alla somma di valori assoluti! Né le funzioni quadrate, quadrate, né assolute sono lineari, motivo per cui la somma dopo aver applicato la funzione è diversa dall'applicare la funzione dopo aver preso la somma.
AmeliaBR,

@AmeliaBR hai perfettamente ragione!
ltronneberg,

Il resto dell'argomento è stato buono, tuttavia, motivo per cui ho deciso di modificare la dichiarazione problematica.
AmeliaBR,

8

@itsols, aggiungerò all'importante idea di Kasper The mean deviation is rarely used. Perché la deviazione standard è generalmente considerata una misura migliore della variabilità rispetto alla deviazione assoluta media? Perché la media aritmetica è il luogo della somma minima delle deviazioni al quadrato (e non della somma assoluta) da esso.

Supponiamo che tu voglia valutare il grado di altruismo. Quindi probabilmente non chiederai a una persona quanto è pronto a dare soldi nella "situazione generale" della vita. Piuttosto, sceglierai di chiedere quanto è pronto a farlo nella situazione soddisfatta, dove ha risorse minime possibili per la propria vita. Vale a dire qual è la quantità di altruismo individuale nella situazione quando quella quantità è minima dell'individuo?

Allo stesso modo, qual è il grado di variabilità di questi dati? Intuitivamente, il miglior indice di misurazione per esso è quello che è minimizzato (o massimizzato) fino al limite in questo contesto. Il contesto è "attorno alla media aritmetica". Poi st. la deviazione è la scelta migliore in questo senso. Se il contesto fosse "intorno alla mediana" allora significa | deviazione | sarebbe la scelta migliore, perché la mediana è il luogo della somma minima di deviazioni assolute da esso.


4
La tua giustificazione per SD basata su Locus è circolare. Stai giustificando la DS dando particolare importanza alla media aritmetica - tutto ciò dimostra che hanno una relazione, non che la SD è speciale. Allo stesso modo si può dare importanza alla mediana, che è il luogo della somma minima della perdita assoluta . Le vere ragioni per cui la SD viene utilizzata più spesso è perché la matematica è più facile da lavorare ... inoltre, è più facile dal punto di vista computazionale (sia perché i mediani richiedono "ordinamento", sia perché i quadrati sono più veloci da calcolare rispetto alle istruzioni di diramazione). La deviazione filosoficamente assoluta ha un valore maggiore.
Samthebest,

7

Una cosa che vale la pena aggiungere è che il motivo più probabile per cui il tuo libro di testo di 30 anni ha utilizzato la deviazione media assoluta rispetto alla deviazione standard è che è più facile calcolare a mano (nessuna radice quadrata / radice quadrata). Ora che i calcolatori sono facilmente accessibili agli studenti delle scuole superiori, non c'è motivo di non chiedere loro di calcolare la deviazione standard.

Vi sono ancora alcune situazioni in cui vengono utilizzate deviazioni assolute anziché deviazioni standard nel fitting di modelli complessi. Le deviazioni assolute sono meno sensibili agli outlier estremi (valori lontani dalla media / linea di tendenza) rispetto alle deviazioni standard perché non quadrano quella distanza prima di aggiungerla ai valori di altri punti dati. Poiché i metodi di adattamento del modello mirano a ridurre la deviazione totale dalla linea di tendenza (in base a quale deviazione del metodo sia il calcolo), i metodi che utilizzano la deviazione standard possono finire per creare una linea di tendenza che si discosta dalla maggior parte dei punti per essere più vicini a un valore anomalo . L'uso di deviazioni assolute riduce questa distorsione, ma a costo di rendere più complicato il calcolo della linea di tendenza.

Questo perché, come altri hanno notato, la deviazione standard ha proprietà e relazioni matematiche che generalmente lo rendono più utile nelle statistiche. Ma "utile" non dovrebbe mai essere confuso con perfetto.


1
solo curioso, quali sono le "proprietà matematiche" che rendono SD più utile della media deviazione assoluta? ottima risposta a proposito.
Weipeng L

@pongba La deviazione standard è intrinseca a molti modelli statistici che presuppongono variazioni casuali da più effetti che possono annullarsi a vicenda (ovvero dati normalmente distribuiti). Ciò include l'accuratezza del campionamento (margine di errore) quando si utilizza un sondaggio di una vasta popolazione. Se i tuoi dati soddisfano questo modello, puoi stimare la probabilità di ottenere un valore dal numero di SD dalla media. È possibile calcolare la SD di più effetti indipendenti dalla SD dei singoli componenti. Vedi anche: en.m.wikipedia.org/wiki/Standard_deviation
AmeliaBR

7

Entrambi misurano la dispersione dei dati calcolando la distanza dei dati dalla sua media.

  1. la deviazione assoluta media sta usando la norma L1 (è anche chiamata distanza di Manhattan o distanza rettilinea )
  2. la deviazione standard sta usando la norma L2 (chiamata anche distanza euclidea )

La differenza tra le due norme è che la deviazione standard sta calcolando il quadrato della differenza, mentre la deviazione assoluta media sta solo osservando la differenza assoluta. Pertanto, i grandi valori anomali creeranno una dispersione più elevata quando si utilizza la deviazione standard invece dell'altro metodo. La distanza euclidea è infatti utilizzata anche più spesso. Il motivo principale è che la deviazione standardhanno belle proprietà quando i dati sono normalmente distribuiti. Quindi, sotto questo presupposto, si consiglia di usarlo. Tuttavia, le persone spesso fanno questo presupposto per i dati che in realtà non sono normalmente distribuiti, il che crea problemi. Se i tuoi dati non sono normalmente distribuiti, puoi comunque utilizzare la deviazione standard, ma dovresti stare attento con l'interpretazione dei risultati.

Infine dovresti sapere che entrambe le misure di dispersione sono casi particolari della distanza di Minkowski , per p = 1 e p = 2. È possibile aumentare p per ottenere altre misure della dispersione dei dati.


C'è anche un post su math.stackexchange su questo argomento: math.stackexchange.com/questions/384003/l1-norm-and-l2-norm
RockScience

6

Sono misure simili che cercano di quantificare la stessa nozione. In genere si usa st. deviazione dal momento che ha delle belle proprietà, se fai qualche supposizione sulla distribuzione sottostante.

D'altra parte il valore assoluto nella deviazione media causa alcuni problemi da una prospettiva matematica poiché non è possibile differenziarlo e non è possibile analizzarlo facilmente. Qualche discussione qui .


1

No, hai torto. Stavo solo scherzando. Vi sono, tuttavia, molte ragioni valide per le quali si vorrebbe calcolare la deviazione media piuttosto che quella formale, e in questo modo sono d'accordo con il punto di vista dei miei fratelli di ingegneria. Certamente se sto calcolando le statistiche per confrontarle con un corpo di lavoro esistente che sta esprimendo conclusioni sia qualitative che quantitative, rimarrei fedeli allo standard. Ma, per esempio, supponiamo che sto cercando di correre un po ' velocealgoritmi di rilevamento anomalie su dati binari generati dalla macchina. Non sto cercando confronti accademici come obiettivo finale. Ma sono interessato all'inferenza fondamentale sulla "diffusione" di un particolare flusso di dati sulla sua media. Sono anche interessato a calcolarlo iterativamente e nel modo più efficiente possibile. Nell'hardware elettronico digitale, giochiamo sempre brutti scherzi: distilliamo le moltiplicazioni e le divisioni in turni sinistro e destro, rispettivamente, e per "calcolare" i valori assoluti, semplicemente rilasciamo il bit di segno (e calcoliamo il complemento di uno o due se necessario , entrambe le trasformazioni facili). Quindi, la mia scelta è quella di calcolarlo nel modo più trascinabile possibile e applicare soglie lineari ai miei calcoli per un rapido rilevamento delle anomalie nelle finestre temporali desiderate.


1
La deviazione standard può essere calcolata in modo efficiente e semplicemente con un algoritmo online, proprio come può essere qualsiasi momento (inclusa la deviazione assoluta media). Pertanto, il requisito di un calcolo rapido o semplice non lo escluderebbe (né escluderebbe eventuali stimatori di spread basati sul momento).
whuber

0

Le due misure differiscono davvero. Il primo è spesso indicato come media deviazione assoluta (MAD) e il secondo è deviazione standard (STD). Nelle applicazioni integrate con potenza di calcolo fortemente limitata e memoria di programma limitata, può essere molto desiderabile evitare i calcoli della radice quadrata.

Da un rapido test approssimativo sembra che MAD = f * STD con f da qualche parte tra 0,78 e 0,80 per un set di campioni casuali distribuiti gaussiani.


0

Amar Sagoo ha un ottimo articolo che spiega questo: [ http://blog.amarsagoo.info/2007/09/making-sense-of-standard-deviation.html]

Per aggiungere il mio tentativo di comprensione intuitiva:

La deviazione media è un modo decente di chiedere quanto sia distante un ipotetico punto "medio" dalla media, ma in realtà non funziona per chiedere quanto siano lontani tutti i punti l'uno dall'altro, o quanto siano "sparsi" i dati.

La deviazione standard sta chiedendo quanto siano distanti tutti i punti, quindi incorpora informazioni più utili della semplice deviazione media (motivo per cui la deviazione media viene solitamente utilizzata solo come trampolino di lancio verso la comprensione della deviazione standard).

Una buona analogia è il teorema di Pitagora. Il teorema di Pitagora ci dice la distanza tra i punti in due dimensioni prendendo la distanza orizzontale e la distanza verticale, quadrandole, aggiungendo i quadrati e prendendo la radice quadrata del totale.

Se lo guardi da vicino, la formula della deviazione standard (della popolazione) è sostanzialmente la stessa del teorema di Pitagora, ma con molto più di due dimensioni (e usando la distanza da ciascun punto alla media come distanza in ogni dimensione). Come tale, fornisce il quadro più preciso della "distanza" tra tutti i punti nel set di dati.

Per spingere ulteriormente tale analogia, la deviazione assoluta media sarebbe come prendere la media delle distanze orizzontali e verticali, che è più corta della distanza totale, mentre la somma della deviazione assoluta aggiungerebbe le distanze orizzontali e verticali, che è più lunga rispetto alla distanza effettiva.


Suppongo che quando dici mediamente deviazione intendi mediamente deviazione che è ciò di cui parlava l'OP. La terminologia è importante perché la deviazione media è sempre 0. Per quanto riguarda la differenza tra deviazione assoluta media e deviazione standard, entrambe implicano la deviazione di TUTTI i punti dalla media. Uno prevede la somma delle deviazioni assolute dalla media mentre è la radice quadrata se la somma della deviazione quadrata ..
Michael R. Chernick,

0

La deviazione standard rappresenta la dispersione dovuta a processi casuali. In particolare, molte misurazioni fisiche che dovrebbero essere dovute alla somma di molti processi indipendenti hanno distribuzioni normali (curva a campana).

Y=1σ2πe-(X-μ)22σ2

YXμσ

In altre parole, la deviazione standard è un termine che deriva da variabili casuali indipendenti che vengono sommate. Quindi, non sono d'accordo con alcune delle risposte fornite qui: la deviazione standard non è solo un'alternativa alla deviazione media che "sembra essere più conveniente per i calcoli successivi". La deviazione standard è il modo giusto per modellare la dispersione per fenomeni normalmente distribuiti.

Se guardi l'equazione, puoi vedere la deviazione standard pesare più pesantemente deviazioni più grandi dalla media. Intuitivamente, puoi pensare alla deviazione media come a misurare la deviazione media effettiva dalla media, mentre la deviazione standard rappresenta una distribuzione a forma di campana o "normale" attorno alla media. Quindi, se i tuoi dati sono normalmente distribuiti, la deviazione standard ti dice che se campionerai più valori, ~ il 68% di essi verrà trovato all'interno di una deviazione standard attorno alla media.

D'altra parte, se si dispone di una singola variabile casuale, la distribuzione potrebbe apparire come un rettangolo, con un'eguale probabilità di valori che appaiono ovunque all'interno di un intervallo. In questo caso, la deviazione media potrebbe essere più appropriata.

TL; DR se si dispone di dati dovuti a molti processi casuali sottostanti o che si sa semplicemente che sono distribuiti normalmente, utilizzare la funzione di deviazione standard.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.