Perché quadrare la differenza invece di prendere il valore assoluto nella deviazione standard?
Quadriamo la differenza delle x dalla media perché la distanza euclidea, proporzionale alla radice quadrata dei gradi di libertà (numero di x, in una misura della popolazione), è la migliore misura di dispersione.
Calcolo della distanza
Qual è la distanza dal punto 0 al punto 5?
- 5−0=5 ,
- |0−5|=5 e
- 52−−√=5
Ok, è banale perché è una singola dimensione.
Che ne dici della distanza di un punto dal punto 0, 0 al punto 3, 4?
Se possiamo andare solo in 1 dimensione alla volta (come negli isolati), aggiungiamo semplicemente i numeri. (Questa è a volte conosciuta come la distanza di Manhattan).
Ma che dire di andare in due dimensioni contemporaneamente? Quindi (dal teorema di Pitagora che abbiamo imparato tutti al liceo), quadriamo la distanza in ogni dimensione, sommiamo i quadrati e quindi prendiamo la radice quadrata per trovare la distanza dall'origine al punto.
32+42−−−−−−√=25−−√=5
Che ne dici della distanza da un punto a 0, 0, 0 al punto 1, 2, 2?
Questo è solo
12+22+22−−−−−−−−−−√=9–√=3
perché la distanza per le prime due x costituisce la gamba per calcolare la distanza totale con la x finale.
x21+x22−−−−−−√2+x23−−−−−−−−−−−−−√=x21+x22+x23−−−−−−−−−−√
Possiamo continuare ad estendere la regola della quadratura della distanza di ogni dimensione, questo generalizza a quella che chiamiamo una distanza euclidea, per misurazioni ortogonali nello spazio iperdimensionale, in questo modo:
distance=∑i=1nx2i−−−−−√
e quindi la somma dei quadrati ortogonali è la distanza al quadrato:
distance2=∑i=1nx2i
Cosa rende una misura ortogonale (o ad angolo retto) ad un'altra? La condizione è che non vi sia alcuna relazione tra le due misurazioni. Vorremmo cercare che queste misurazioni fossero indipendenti e distribuite individualmente , ( iid ).
Varianza
Ora ricorda la formula per la varianza della popolazione (dalla quale otterremo la deviazione standard):
σ2=∑i=1n(xi−μ)2n
Se abbiamo già centrato i dati su 0 sottraendo la media, abbiamo:
σ2=∑i=1n(xi)2n
Quindi vediamo che la varianza è solo la distanza al quadrato divisa per il numero di gradi di libertà (il numero di dimensioni su cui le variabili sono libere di variare). Questo è anche il contributo medio alla per misura. "Varianza quadrata media" sarebbe anche un termine appropriato.distance2
Deviazione standard
Quindi abbiamo la deviazione standard, che è solo la radice quadrata della varianza:
σ=∑i=1n(xi−μ)2n−−−−−−−−−−−⎷
Che è equivalentemente, la distanza , divisa per la radice quadrata dei gradi di libertà:
σ=∑i=1n(xi)2−−−−−−−√n−−√
Deviazione assoluta media
Mean Absolute Deviation (MAD), è una misura della dispersione che utilizza la distanza di Manhattan, ovvero la somma dei valori assoluti delle differenze dalla media.
MAD=∑i=1n|xi−μ|n
Ancora una volta, supponendo che i dati siano centrati (la media sottratta) abbiamo la distanza di Manhattan divisa per il numero di misurazioni:
MAD=∑i=1n|xi|n
Discussione
- La deviazione assoluta media è circa .8 volte (in realtà2/π−−−√ ) la dimensione della deviazione standard per un set di dati normalmente distribuito.
- Indipendentemente dalla distribuzione, la deviazione assoluta media è inferiore o uguale alla deviazione standard. MAD comprende la dispersione di un set di dati con valori estremi, rispetto alla deviazione standard.
- La deviazione assoluta media è più robusta per i valori anomali (vale a dire che i valori anomali non hanno un grande effetto sulla statistica come sulla deviazione standard.
- Dal punto di vista geometrico, se le misurazioni non sono ortogonali tra loro (iid) - per esempio, se fossero positivamente correlate, la deviazione assoluta media sarebbe una statistica descrittiva migliore rispetto alla deviazione standard, che si basa sulla distanza euclidea (sebbene questo sia generalmente considerato corretto ).
Questa tabella riflette le informazioni di cui sopra in un modo più conciso:
sizesize,∼Noutliersnot i.i.d.MAD≤σ.8×σrobustrobustσ≥MAD1.25×MADinfluencedok
Commenti:
Hai un riferimento per "la deviazione assoluta media è circa .8 volte la dimensione della deviazione standard per un set di dati normalmente distribuito"? Le simulazioni che sto eseguendo mostrano che questo non è corretto.
Ecco 10 simulazioni di un milione di campioni dalla distribuzione normale standard:
>>> from numpy.random import standard_normal
>>> from numpy import mean, absolute
>>> for _ in range(10):
... array = standard_normal(1_000_000)
... print(numpy.std(array), mean(absolute(array - mean(array))))
...
0.9999303226807994 0.7980634269273035
1.001126461808081 0.7985832977798981
0.9994247275533893 0.7980171649802613
0.9994142105335478 0.7972367136320848
1.0001188211817726 0.798021564315937
1.000442654481297 0.7981845236910842
1.0001537518728232 0.7975554993742403
1.0002838369191982 0.798143108250063
0.9999060114455384 0.797895284109523
1.0004871065680165 0.798726062813422
Conclusione
Preferiamo le differenze quadrate nel calcolare una misura di dispersione perché possiamo sfruttare la distanza euclidea, il che ci dà una migliore statistica descrittiva della dispersione. Quando ci sono valori relativamente più estremi, la distanza euclidea rappresenta quello nella statistica, mentre la distanza di Manhattan dà ad ogni misura lo stesso peso.