Intuizione dietro la deviazione standard


26

Sto cercando di ottenere una migliore comprensione intuitiva della deviazione standard.

Da quello che ho capito, è rappresentativo della media delle differenze di un insieme di osservazioni in un insieme di dati dalla media di tale insieme di dati. Tuttavia NON è in realtà uguale alle medie delle differenze in quanto dà più peso alle osservazioni più lontano dalla media.

Supponiamo di avere la seguente popolazione di valori: {1,3,5,7,9}

La media è 5 .

Se prendo una misura dello spread in base al valore assoluto, ottengo

i=15|xiμ|5=2.4

Se prendo una misura della diffusione in base alla deviazione standard ottengo

i=15(xiμ)25=2.83

Il risultato usando la deviazione standard è più grande, come previsto, a causa del peso extra che dà a valori più lontani dalla media.

Ma se mi fosse appena stato detto che avevo a che fare con una popolazione con una media di 5 e una deviazione standard di 2.83 come avrei dedotto che la popolazione fosse composta da valori simili a {1,3,5,7,9} ? Sembra solo che la cifra di 2.83 sia molto arbitraria ... Non vedo come dovresti interpretarla. Vuol 2.83 dire i valori sono diffusione molto ampia o sono tutte strettamente raggruppati intorno alla media ...

Quando ti viene presentata una dichiarazione secondo cui hai a che fare con una popolazione con una media di e una deviazione standard di 2,83, che cosa ti dice sulla popolazione?52.83


2
Questo domanda è correlata (anche se non identica) a stats.stackexchange.com/q/81986/3277 e ad un'altra collegata ad esso.
ttnphns,

1
Ti dice una distanza "tipica" dalla media (la distanza RMS). Ciò che rende "grande" o "piccolo" dipende dai tuoi criteri. Se stai cercando di misurare le tolleranze ingegneristiche, potrebbe essere enorme. In altri contesti la stessa deviazione standard può essere considerata piuttosto piccola.
Glen_b

Risposte:


13

La mia intuizione è che la deviazione standard è: una misura della diffusione dei dati.

Hai un buon punto sul fatto che, a prescindere dal fatto che sia ampio o stretto, dipende dal nostro presupposto sottostante per la distribuzione dei dati.

Avvertenza: una misura della diffusione è molto utile quando la distribuzione dei dati è simmetrica attorno alla media e presenta una varianza relativamente vicina a quella della distribuzione normale. (Ciò significa che è approssimativamente normale.)

Nel caso in cui i dati siano approssimativamente normali, la deviazione standard ha un'interpretazione canonica:

  • Regione: media del campione +/- 1 deviazione standard, contiene circa il 68% dei dati
  • Regione: media campione +/- 2 deviazione standard, contiene circa il 95% dei dati
  • Regione: media campione +/- 3 deviazione standard, contiene circa il 99% dei dati

(vedi la prima grafica in Wiki )

Ciò significa che se sappiamo che la media della popolazione è 5 e la deviazione standard è 2,83 e supponiamo che la distribuzione sia approssimativamente normale, ti direi che sono ragionevolmente certo che se facciamo (una grande) molte osservazioni, solo il 5% lo farà essere più piccolo di 0.4 = 5 - 2 * 2.3 o più grande di 9.6 = 5 + 2 * 2.3.

Notare qual è l'impatto della deviazione standard sul nostro intervallo di confidenza? (maggiore è la diffusione, maggiore è l'incertezza)

Inoltre, nel caso generale in cui i dati non sono nemmeno approssimativamente normali, ma comunque simmetrici, sai che esistono alcuni per i quali:α

  • Regione: media campione +/- deviazione standard, contiene circa il 95% dei datiα

Puoi imparare l' da un sottocampione o assumere α = 2 e questo ti dà spesso una buona regola empirica per calcolare nella tua testa quali osservazioni future aspettarti o quali delle nuove osservazioni possono essere considerate come valori anomali. (tieni a mente l'avvertimento però!)αα=2

Non vedo come dovresti interpretarlo. 2,83 significa che i valori sono molto ampi o sono tutti strettamente raggruppati attorno alla media ...

Immagino che ogni domanda che ponga "ampia o stretta" dovrebbe contenere anche: "in relazione a cosa?". Un suggerimento potrebbe essere quello di utilizzare una distribuzione ben nota come riferimento. A seconda del contesto potrebbe essere utile pensare: "È molto più ampio o più stretto di un normale / poisson?".

EDIT: basato su un utile suggerimento nei commenti, un altro aspetto sulla deviazione standard come misura della distanza.

Ancora un'altra intuizione dell'utilità della deviazione standard è che si tratta di una misura di distanza tra i dati del campione x 1 , ... , x N e la sua media ˉ x :sNx1,,xNx¯

sN=1Ni=1N(xix¯)2

A titolo di confronto, l'errore quadratico medio (MSE), una delle misure di errore più popolari nelle statistiche, è definito come:

MSE=1ni=1n(Yi^Yi)2

Le domande possono essere sollevate perché la funzione di distanza sopra? Perché distanze quadrate e non distanze assolute per esempio? E perché stiamo prendendo la radice quadrata?

Avere funzioni di distanza quadratica, o errore, ha il vantaggio che possiamo sia differenziarle che minimizzarle facilmente. Per quanto riguarda la radice quadrata, si aggiunge all'interpretazione come converte l'errore nella scala dei nostri dati osservati.


Perché dici che una misura di diffusione è più "utile" quando i dati sono normali? Mi sembra che qualsiasi set di dati abbia una diffusione e la deviazione standard sia un riepilogo della diffusione anche se non cattura la forma della diffusione.
Michael Lew,

Certo, hai ragione. Ma non stavo sostenendo che la deviazione standard dipende in alcun modo dalla forma della distribuzione. Sottolineo semplicemente che SE hai qualche conoscenza della forma (o sei pronto a fare questo assunto), di solito è un'informazione molto più utile. Allo stesso modo, la media di esempio è un buon descrittore dei tuoi dati, SE puoi fare alcune ipotesi generali sulla distribuzione.
significa significato

La mia ragione preferita per usare il quadrato invece del valore assoluto è che è un logaritmo di probabilità di alcuni gaussiani. Quindi, se ritieni che gli errori siano di natura gaussiana e che i bit siano un buon modo per misurare le informazioni, allora ha senso usare l'errore al quadrato.
qbolec,

5

Può aiutare a rendersi conto che la media è analoga al centro di massa . La varianza è il momento d'inerzia . La deviazione standard è il raggio di rotazione .

Per una prospettiva storica, dai un'occhiata a:

George Airy (1875) Sulla teoria algebrica e numerica degli errori delle osservazioni e della combinazione di osservazioni

Karl Pearson (1894) Contributi alla teoria matematica dell'evoluzione.

Questo diagramma di Airy del 1875 mostra le varie misure di deviazione che sono facilmente interconvertite (pagina 17). La deviazione standard è chiamata "errore del quadrato medio". Viene anche discusso le pagine 20-21 e ne giustifica l'uso a pagina 48, dimostrando che è più semplice calcolare a mano perché non è necessario un calcolo separato degli errori negativi e positivi. Il termine deviazione standard è stato introdotto da Pearson nel documento sopra citato a pagina 75.

inserisci qui la descrizione dell'immagine

A parte: si noti che l'utilità della deviazione standard dipende dall'applicabilità della "legge degli errori", nota anche come "curva normale", che deriva da "molte cause indipendenti di errore" (Airy 1875 pg 7). Non c'è motivo di aspettarsi che le deviazioni da una media di gruppo di ciascun individuo debbano seguire questa legge. In molti casi per i sistemi biologici una distribuzione normale dei tronchi è un'assunzione migliore del normale. Vedere:

Limpert et al (2001) Distribuzioni log-normali tra le scienze: chiavi e indizi

È inoltre discutibile se sia opportuno trattare la variazione individuale come rumore, poiché il processo di generazione dei dati agisce a livello di individuo e non di gruppo.


3

La deviazione standard, infatti, dà più peso a quelli più lontani dalla media, perché è la radice quadrata della media delle distanze quadrate. Le ragioni per usare questo (piuttosto che la deviazione assoluta media che proponete, o la deviazione assoluta mediana, che viene utilizzata in statistiche affidabili) sono in parte dovute al fatto che il calcolo ha un tempo più facile con i polinomi che con valori assoluti. Tuttavia, spesso, vogliamo enfatizzare i valori estremi.

Quanto alla tua domanda sul significato intuitivo, si sviluppa nel tempo. Hai ragione sul fatto che più di un set di numeri può avere la stessa media e sd; questo perché media e sd sono solo due informazioni e il set di dati può essere di 5 parti (come 1,3,5,7,9) o più.

Se una media 5 e sd di 2,83 è "ampia" o "stretta" dipende dal campo in cui stai lavorando.

Quando hai solo 5 numeri, è facile guardare l'elenco completo; quando hai molti numeri, modi più intuitivi di pensare alla diffusione includono cose come il riepilogo dei cinque numeri o, ancora meglio, grafici come un diagramma di densità.


2

La deviazione standard misura la distanza della popolazione dalla media come variabili casuali.

X:[0,1]R

X(t)={10t<15315t<25525t<35735t<45945t1

Il motivo per cui passiamo alle funzioni e alla teoria delle misure è perché dobbiamo avere un modo sistematico di discutere di come due spazi di probabilità siano uguali fino agli eventi che hanno zero possibilità di verificarsi. Ora che siamo passati alle funzioni, abbiamo bisogno di un senso della distanza.

||Y||p=(01|Y(t)|pdt)1/p
Y:[0,1]R1p<dp(Y,Z)=||XZ||p

p=1

d1(X,5)=||X5_||1=2.4.
If we take the p=2 norm we get the usual standard deviation
d2(X,5)=||X5_||2=2.83.

Here 5_ denotes the constant function t5.

Understanding the meaning of standard deviation is really understanding the meaning of the distance function d2 and understanding why it is, in many senses, the best measure of distance between functions.


This explanation includes some constructions that do not seem "intuitive." The principal one is the unwarranted appearance of a function defined on [0,1], an interval which has nothing to do with the setting. (It is natural to define X:{1,3,5,7,9}R as X(i)=i where the algebra is the power set of {1,3,5,7,9}.) Also, interpreting expressions like "||X5||1" is somewhat problematic because "5" represents a number--the mean of the population--not a random variable. In the end, after all this machinery is introduced, the question is restated but not actually answered.
whuber

Yes the random variable you listed is standard for those comfortable with measure theory. I was hoping to narrow it down to understanding functions and integration for people with only calculus background. I will rewrite the mean as a function.
SomeEE

Also, in that it is a restated question, are you suggesting to include comments about why d2 is the best measure of distance between functions?
SomeEE

The question asks for intuition in understanding the standard deviation. You have explained how it is the L2 norm in some function space. Although that provides another mathematical formalization (and would be adequate intuition for a mathematician otherwise ignorant of the standard deviation), it seems to stop short of what the original poster was requesting. What would be most welcome is a follow-up paragraph explaining the "meaning of the distance function d2" and elaborating, if only a little, on the senses in which it is a "best" measure of distance.
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.