Perché la deviazione standard è definita come sqrt della varianza e non come sqrt della somma dei quadrati su N?

Oggi ho insegnato a una classe introduttiva di statistica e uno studente mi ha fatto una domanda, che riformulo qui come: "Perché la deviazione standard è definita come sqrt di varianza e non come sqrt di somma dei quadrati su N?"

Definiamo la varianza della popolazione: $\sigma^2=\frac{1}{N}\sum{(x_i-\mu)^2}$

E deviazione standard: . $\sigma=\sqrt{\sigma^2}=\frac{1}{\sqrt{N}}\sqrt{\sum{(x_i-\mu)^2}}$

L'interpretazione possiamo dare a è che dà la deviazione media di unità nella popolazione dalla media popolazione di . $\sigma$ $X$

Tuttavia, nella definizione di sd dividiamo il sqrt della somma dei quadrati per . La domanda lo studente pone è per questo che non dividiamo la sqrt del sume delle piazze da , invece. Veniamo così alla formula concorrente:Lo studente ha sostenuto che questa formula assomiglia più a una deviazione "media" dalla media che a quando si divide tra come in . $\sqrt{N}$ $N$

σ_{n e w} = \frac{1}{N} \sqrt{\sum (x_{i} - μ)^{2}} .

$\sigma_{new}=\frac{1}{N}\sqrt{\sum{(x_i-\mu)^2}}.$

\sqrt{N}

$\sqrt{N}$

σ

$\sigma$

Pensavo che questa domanda non fosse stupida. Vorrei dare una risposta allo studente che va oltre il dire che lo sd è definito come sqrt della varianza che è il deviato quadrato medio. In altre parole, perché lo studente dovrebbe usare la formula corretta e non seguire la sua idea?

Questa domanda riguarda un thread precedente e le risposte fornite qui . Le risposte vanno in tre direzioni:

$\sigma$ è la deviazione radice-media-quadrata (RMS), non la deviazione "tipica" dalla media (cioè, $\sigma_{new}$ ). Pertanto, è definito in modo diverso.
Ha delle belle proprietà matematiche.
Inoltre, sqrt riporterebbe le "unità" alla loro scala originale. Tuttavia, questo sarebbe anche il caso di $\sigma_{new}$ , che divide per $N$ , invece.

Entrambi i punti 1 e 2 sono argomenti a favore di sd come RMS, ma non vedo un argomento contro l'uso di $\sigma_{new}$ . Quali sarebbero i buoni argomenti per convincere gli studenti di livello introduttivo dell'uso della distanza RMS media $\sigma$ dalla media?

— Tomka
fonte

Penso che sia difficile rispondere alla domanda "Perché la deviazione standard è definita come ...". Le definizioni sono solo convenzioni di etichettatura arbitrarie. Non devono conformarsi al perché .

— ttnphns,

"Why is the standard deviation defined as sqrt of variance and not as average of [the root of] sum of squares?"Potrebbe essere che ciò che è racchiuso tra parentesi si sia in qualche modo perso nella domanda?

— ttnphns,

Ma SD ha una serie di scopi; ci deve essere una motivazione migliore di quella definita così. Sarebbe utile, specialmente nell'insegnamento agli studenti universitari. Posso immaginare una motivazione nel senso della disuguaglianza di Chebyshev (min. Della proporzione di casi nel regno di +/- un fattore costante di sd).

— Tomka,

Non posso rispondere perché la tua Q è in attesa, ma prova questo: immagina di osservare i valori 1 e 3 in proporzioni approssimativamente uguali (lancia una moneta, , ). Una "distanza tipica" di osservazioni dalla media dovrebbe essere qualcosa di simile a 1. Con la tua formula , considera cosa succede a questa misura della distanza tipica per molto, molto grande. In ogni casosarà vicino a 1, quindi la loro somma dei quadrati sarà vicino a . Il numeratore sarà vicino a quindi la tua formula diventerà sempre più piccola all'aumentare di , anche se la distanza tipica dalla media non sta cambiando.

H = 3

$H=3$

T = 1

$T=1$

\sqrt{S S E} / n

$\sqrt{SSE}/n$

n

$n$

| x_{i} - \bar{x} |

$|x_i-\bar{x}|$

n

$n$

\sqrt{n}

$\sqrt{n}$

n

$n$

— Glen_b -Restate Monica

@whuber Ho fatto un altro aggiornamento e spero che il punto che faccio sia più chiaro ora. Nota: sto chiedendo consigli per l'insegnamento qui oltre a porre una domanda su finanziamenti di statistiche. Non sto suggerendo una formula alternativa, ma ho dato un esempio da una situazione in classe di una buona domanda di uno studente a cui non avevo una risposta immediata. Se siete d'accordo, chiedo cortesemente di rilasciare la domanda dalla sospensione ora.

— Tomka,

Risposte:

Esistono almeno tre problemi di base che possono essere facilmente spiegati ai principianti:

La "nuova" SD non è nemmeno definita per popolazioni infinite. (Uno potrebbe dichiararlo sempre uguale a zero in tali casi, ma ciò non lo renderebbe più utile.)
La nuova SD non si comporta come dovrebbe fare una media in caso di campionamento casuale.
Sebbene la nuova SD possa essere utilizzata con tutto il rigore matematico per valutare le deviazioni da una media (in campioni e popolazioni finite), la sua interpretazione è inutilmente complicata.

1. L'applicabilità della nuova SD è limitata

Il punto (1) potrebbe essere riportato a casa, anche a coloro che non sono esperti di integrazione, sottolineando che, poiché la varianza è chiaramente una media aritmetica (di deviazioni quadrate), ha un'utile estensione ai modelli di popolazioni "infinite" per le quali il l'intuizione dell'esistenza di una media aritmetica è ancora valida. Pertanto la sua radice quadrata - la solita SD - è perfettamente ben definita anche in questi casi, e altrettanto utile nel suo ruolo di una (reespressione non lineare di) una varianza. Tuttavia, la nuova SD divide quella media per arbitrariamente grande $\sqrt{N}$ , rendendo problematica la sua generalizzazione oltre le popolazioni finite e i campioni finiti: cosa dovrebbe $1/\sqrt{N}$ essere preso alla pari in tali casi?

2. La nuova SD non è una media

Qualsiasi statistica degna del nome "medio" dovrebbe avere la proprietà che converge al valore della popolazione all'aumentare della dimensione di un campione casuale dalla popolazione. Qualsiasi multiplo fisso della SD avrebbe questa proprietà, poiché il moltiplicatore si applicherebbe sia al calcolo della SD campione sia alla SD di popolazione. (Anche se non contraddice direttamente l'argomento offerto da Alecos Papadopoulos, questa osservazione suggerisce che l'argomento è solo tangenziale ai problemi reali.) Tuttavia, la "nuova" SD, essendo uguale a $1/\sqrt{N}$ volte il solito, converge ovviamente a $0$ in tutte le circostanze quando la dimensione del campione $N$ aumenta. Pertanto,sebbene per qualsiasi dimensione fissa del campione $N$ la nuova SD (opportunamente interpretata) sia una misura di variazione perfettamente adeguata intorno alla media,non può legittimamente essere considerata unamisurauniversaleapplicabile, con la stessa interpretazione, per tutte le dimensioni del campione, né può essere correttamente definito "medio" in ogni senso utile.

3. La nuova SD è complicata da interpretare e utilizzare

Considera di prelevare campioni (diciamo) di dimensioni $N=4$ . La nuova SD in questi casi è volte il normale SD. Gode quindi di interpretazioni comparabili, come un analogo della regola 68-95-99 (circa il 68% dei dati dovrebbe trovarsi all'interno diduenuove SD della media, il 95% all'interno diquattronuove SD della media,ecc.; e le versioni delle disuguaglianze classiche come quelle di Chebychev terranno (non più didei dati possono trovarsi a più dinuove SD lontano dalla loro media); e il Teorema del limite centrale può essere analizzato in modo analogo in termini di nuova SD (uno si divide per $1/\sqrt{N}=1/2$ $1/k^2$ $2k$ volte la nuova SD per standardizzare la variabile). Pertanto, in questo senso specifico e chiaramente vincolato,non c'è nulla di sbagliato nella proposta dello studente. La difficoltà, tuttavia, è che tutte queste affermazioni contengono - in modo abbastanza esplicito - fattori di $\sqrt{N}$ . Sebbene non vi siano problemi matematici inerenti, ciò complica certamente le dichiarazioni e l'interpretazione delle leggi fondamentali della statistica. $\sqrt{N}=2$

È da notare che Gauss e altri hanno originariamente parametrizzato la distribuzione gaussiana di , usando efficacemente $\sqrt{2}\sigma$ volte la DS per quantificare la diffusione di una variabile casuale normale. Questo uso storico dimostra la proprietà e l'efficacia dell'uso di altrimultiplifissidella SD al suo posto. $\sqrt{2}$

— whuber
fonte

Grazie - una domanda indietro (relativa al punto 2): fa

non converge a

quando

diventa grande, mentre

\frac{1}{\sqrt{N}}

$\frac{1}{\sqrt{N}}$

0

$0$

N

$N$

ovviamente?

\frac{1}{N}

$\frac{1}{N}$

— Tomka,

Stiamo confrontando la SD del campione con

volte la SD del campione (la "nuova SD"). Man mano che

cresce, la DS del campione si avvicina a unacostante(solitamente) diversa da zeropari alla SD della popolazione. Pertanto

1 / \sqrt{N}

$1/\sqrt{N}$

N

$N$

volte la SD campione converge a zero.

1 / \sqrt{N}

$1/\sqrt{N}$

— whuber

Questo è un materiale standard: consulta qualsiasi manuale di testo rigoroso nelle statistiche matematiche (che, per essere onesti, non sarebbe accessibile alla maggior parte dei principianti). Tuttavia, i risultati importanti per la mia risposta derivano da un'affermazione più debole e intuitivamente ovvia. Fissare un numero

e lasciare che

sia la popolazione SD. Considera la possibilità che la SD di esempio sia compresa tra

. È sufficiente che questa possibilità vada a zero all'aumentare della dimensione del campione

Questo da solo mostra che

A > 1

$A \gt 1$

σ

$\sigma$

σ / A

$\sigma/A$

A σ

$A\sigma$

N

$N$

volte la SD campione convergequasi sicuramentea

, dimostrando il punto (2) nella risposta.

1 / \sqrt{N}

$1/\sqrt{N}$

0

$0$

— whuber

+1, più non è invariante alla scala ecc. (Una condizione necessaria per un momento di questo modulo)

— Nikos M.

@Nikos Grazie, ma cosa non è invariante di scala? Entrambi

cambiano quando i dati vengono riscalati.

S D / \sqrt{N}

$SD/\sqrt{N}$

S D

$SD$

— whuber

Supponiamo che il tuo campione contenga solo due realizzazioni. Immagino che una misura intuitiva di dispersione sarebbe la deviazione assoluta media (AAD)

A A D = \frac{1}{2} (| x_{1} - \bar{x} | + | x_{2} - \bar{x} |) = . . . = \frac{| x_{1} - x_{2} |}{2}

$AAD = \frac 12 (|x_1-\bar x| + |x_2-\bar x|) = ...= \frac {|x_1-x_2|}{2}$

Quindi vorremmo che altre misure di dispersione allo stesso livello di unità di misura fossero "vicine" a quanto sopra.

La varianza del campione è definita come

σ^{2} = \frac{1}{2} [(x_{1} - \bar{x})^{2} + (x_{2} - \bar{x})^{2}] = \frac{1}{2} [{(\frac{x_{1} - x_{2}}{2})}^{2} + {(\frac{x_{2} - x_{1}}{2})}^{2}]

$\sigma^2=\frac{1}{2}[(x_1-\bar x)^2 + (x_2-\bar x)^2] = \frac 12 \left[\left(\frac {x_1-x_2}{2}\right)^2 + \left(\frac {x_2-x_1}{2}\right)^2\right]$

= \frac{1}{2} [\frac{(x_{1} - x_{2})^{2}}{4} + \frac{(x_{1} - x_{2})^{2}}{4}] = \frac{1}{2} \frac{(x_{1} - x_{2})^{2}}{2}

$=\frac 12 \left[\frac {(x_1-x_2)^2}{4} + \frac {(x_1-x_2)^2}{4}\right]=\frac 12 \frac {(x_1-x_2)^2}{2}$

= \frac{1}{2} \cdot \frac{| x_{1} - x_{2} |^{2}}{2}

$=\frac 12\cdot \frac {|x_1-x_2|^2}{2}$

Per tornare alle unità di misura originali, se facessimo come lo studente si chiedeva / suggeriva, avremmo ottenuto la misura, chiamandola $q$

q \equiv \frac{1}{2} \cdot \sqrt{\frac{| x_{1} - x_{2} |^{2}}{2}} = \frac{1}{2} \frac{| x_{1} - x_{2} |}{\sqrt{2}} = \frac{1}{\sqrt{2}} A A D < A A D

$q \equiv \frac 12\cdot \sqrt {\frac {|x_1-x_2|^2}{2}} = \frac 12 \frac {|x_1-x_2|}{\sqrt 2} = \frac 1{\sqrt 2} AAD < AAD$

i.e. we would have "downplayed" the "intuitive" measure of dispersion, while if we have considered the standard deviation as defined,

S D \equiv \sqrt{σ^{2}} = \frac{| x_{1} - x_{2} |}{2} = A A D

$SD \equiv \sqrt {\sigma^2} = \frac {|x_1-x_2|}{2} =AAD$

Since we want to "stay as close as possible" to the intuitive measure, we should use $SD$ .

ADDENDUM
Let's consider now a sample of size $n$ We have

n \cdot A A D = \sum_{i = 1}^{n} | x_{i} - \bar{x} |

$n\cdot AAD = \sum_{i=1}^n |x_i-\bar x|$

and

n \cdot Var (X) = \sum_{i = 1}^{n} (x_{i} - \bar{x})^{2} = \sum_{i = 1}^{n} | x_{i} - \bar{x} |^{2}

$n \cdot \text{Var}(X) = \sum_{i=1}^n (x_i-\bar x)^2 = \sum_{i=1}^n |x_i-\bar x|^2$

we can write the right-hand side of the variance expression as

\sum_{i = 1}^{n} | x_{i} - \bar{x} |^{2} = {(\sum_{i = 1}^{n} | x_{i} - \bar{x} |)}^{2} - \sum_{j \neq i} | x_{i} - \bar{x} | | x_{j} - \bar{x} |

$\sum_{i=1}^n |x_i-\bar x|^2 = \left(\sum_{i=1}^n |x_i-\bar x|\right)^2 - \sum_{j\neq i} |x_i-\bar x||x_j-\bar x|$

= {(n \cdot A A D)}^{2} - \sum_{j \neq i} | x_{i} - \bar{x} | | x_{j} - \bar{x} |

$= \left (n\cdot AAD\right)^2 - \sum_{j\neq i} |x_i-\bar x||x_j-\bar x|$

Then the dispersion measure $q_n$ will be

q_{n} \equiv \frac{1}{n} {[n^{2} \cdot A A D^{2} - \sum_{j \neq i} | x_{i} - \bar{x} | | x_{j} - \bar{x} |]}^{1 / 2}

$q_n \equiv \frac 1n \left[n^2\cdot AAD^2 - \sum_{j\neq i} |x_i-\bar x||x_j-\bar x|\right]^{1/2}$

= {[A A D^{2} - \frac{1}{n^{2}} \sum_{j \neq i} | x_{i} - \bar{x} | | x_{j} - \bar{x} |]}^{1 / 2}

$= \left[AAD^2 - \frac 1{n^2} \sum_{j\neq i} |x_i-\bar x||x_j-\bar x|\right]^{1/2}$

Now think informally: note that $\sum_{j\neq i} |x_i-\bar x||x_j-\bar x|$ contains $n^2-n$ terms, and so divided by $n^2$ will left us with "one term in the second power". But also "one term in the 2nd power" is what we have in $AAD^2$ : this is a primitive way to "sense" why $q_n$ will tend to zero as $n$ grows large. On the other hand the Standard Deviation as defined would be

S D \equiv \frac{1}{\sqrt{n}} {[n^{2} \cdot A A D^{2} - \sum_{j \neq i} | x_{i} - \bar{x} | | x_{j} - \bar{x} |]}^{1 / 2}

$SD \equiv \frac 1{\sqrt n} \left[n^2\cdot AAD^2 - \sum_{j\neq i} |x_i-\bar x||x_j-\bar x|\right]^{1/2}$

= {[n \cdot A A D^{2} - \frac{1}{n} \sum_{j \neq i} | x_{i} - \bar{x} | | x_{j} - \bar{x} |]}^{1 / 2}

$= \left[n\cdot AAD^2 - \frac 1{n} \sum_{j\neq i} |x_i-\bar x||x_j-\bar x|\right]^{1/2}$

Continuing are informal thinking, the first term gives us $n$ "terms in the 2nd power", while the second term gives us $n-1$ "terms in the second power" . So we will be left eventually with one such term, as $n$ grows large, and then we will take its square root.
This does not mean that the Standard Deviation as defined will equal the Average Absolute Deviation in general (it doesn't), but it does show that it is suitably defined so as to be "on a par" with it for any $n$ , as well as for the case when $n\rightarrow \infty$ .

— Alecos Papadopoulos
fonte

Although this answer is interesting, I believe there are more important, convincing, and rigorous explanations (of which I have offered only a few in my own answer: much more could be said, especially concerning the role of the SD in the Central Limit theorem and algebraic rules for computing SDs of sums of independent random variables).

— whuber

@whuber Certainly. I just opted for a "the bell has rung" approach to destroy the student's intermission!

— Alecos Papadopoulos