Perché la deviazione standard è definita come sqrt della varianza e non come sqrt della somma dei quadrati su N?


16

Oggi ho insegnato a una classe introduttiva di statistica e uno studente mi ha fatto una domanda, che riformulo qui come: "Perché la deviazione standard è definita come sqrt di varianza e non come sqrt di somma dei quadrati su N?"

Definiamo la varianza della popolazione:σ2=1N(xiμ)2

E deviazione standard: .σ=σ2=1N(xiμ)2

L'interpretazione possiamo dare a è che dà la deviazione media di unità nella popolazione dalla media popolazione di X .σX

Tuttavia, nella definizione di sd dividiamo il sqrt della somma dei quadrati per . La domanda lo studente pone è per questo che non dividiamo la sqrt del sume delle piazze da , invece. Veniamo così alla formula concorrente:Lo studente ha sostenuto che questa formula assomiglia più a una deviazione "media" dalla media che a quando si divide tra \ sqrt {N} come in \ sigma .NN

σnew=1N(xiμ)2.
Nσ

Pensavo che questa domanda non fosse stupida. Vorrei dare una risposta allo studente che va oltre il dire che lo sd è definito come sqrt della varianza che è il deviato quadrato medio. In altre parole, perché lo studente dovrebbe usare la formula corretta e non seguire la sua idea?

Questa domanda riguarda un thread precedente e le risposte fornite qui . Le risposte vanno in tre direzioni:

  1. σ è la deviazione radice-media-quadrata (RMS), non la deviazione "tipica" dalla media (cioè, σnew ). Pertanto, è definito in modo diverso.
  2. Ha delle belle proprietà matematiche.
  3. Inoltre, sqrt riporterebbe le "unità" alla loro scala originale. Tuttavia, questo sarebbe anche il caso di σnew , che divide per N , invece.

Entrambi i punti 1 e 2 sono argomenti a favore di sd come RMS, ma non vedo un argomento contro l'uso di σnew . Quali sarebbero i buoni argomenti per convincere gli studenti di livello introduttivo dell'uso della distanza RMS media σ dalla media?


2
Penso che sia difficile rispondere alla domanda "Perché la deviazione standard è definita come ...". Le definizioni sono solo convenzioni di etichettatura arbitrarie. Non devono conformarsi al perché .
ttnphns,

"Why is the standard deviation defined as sqrt of variance and not as average of [the root of] sum of squares?"Potrebbe essere che ciò che è racchiuso tra parentesi si sia in qualche modo perso nella domanda?
ttnphns,

1
Ma SD ha una serie di scopi; ci deve essere una motivazione migliore di quella definita così. Sarebbe utile, specialmente nell'insegnamento agli studenti universitari. Posso immaginare una motivazione nel senso della disuguaglianza di Chebyshev (min. Della proporzione di casi nel regno di +/- un fattore costante di sd).
Tomka,

2
Non posso rispondere perché la tua Q è in attesa, ma prova questo: immagina di osservare i valori 1 e 3 in proporzioni approssimativamente uguali (lancia una moneta, , ). Una "distanza tipica" di osservazioni dalla media dovrebbe essere qualcosa di simile a 1. Con la tua formula , considera cosa succede a questa misura della distanza tipica per molto, molto grande. In ogni casosarà vicino a 1, quindi la loro somma dei quadrati sarà vicino a . Il numeratore sarà vicino a quindi la tua formula diventerà sempre più piccola all'aumentare di , anche se la distanza tipica dalla media non sta cambiando. T = 1 H=3T=1SSE/nn|xix¯|n nnn
Glen_b -Restate Monica

1
@whuber Ho fatto un altro aggiornamento e spero che il punto che faccio sia più chiaro ora. Nota: sto chiedendo consigli per l'insegnamento qui oltre a porre una domanda su finanziamenti di statistiche. Non sto suggerendo una formula alternativa, ma ho dato un esempio da una situazione in classe di una buona domanda di uno studente a cui non avevo una risposta immediata. Se siete d'accordo, chiedo cortesemente di rilasciare la domanda dalla sospensione ora.
Tomka,

Risposte:


12

Esistono almeno tre problemi di base che possono essere facilmente spiegati ai principianti:

  1. La "nuova" SD non è nemmeno definita per popolazioni infinite. (Uno potrebbe dichiararlo sempre uguale a zero in tali casi, ma ciò non lo renderebbe più utile.)

  2. La nuova SD non si comporta come dovrebbe fare una media in caso di campionamento casuale.

  3. Sebbene la nuova SD possa essere utilizzata con tutto il rigore matematico per valutare le deviazioni da una media (in campioni e popolazioni finite), la sua interpretazione è inutilmente complicata.

1. L'applicabilità della nuova SD è limitata

Il punto (1) potrebbe essere riportato a casa, anche a coloro che non sono esperti di integrazione, sottolineando che, poiché la varianza è chiaramente una media aritmetica (di deviazioni quadrate), ha un'utile estensione ai modelli di popolazioni "infinite" per le quali il l'intuizione dell'esistenza di una media aritmetica è ancora valida. Pertanto la sua radice quadrata - la solita SD - è perfettamente ben definita anche in questi casi, e altrettanto utile nel suo ruolo di una (reespressione non lineare di) una varianza. Tuttavia, la nuova SD divide quella media per arbitrariamente grande N , rendendo problematica la sua generalizzazione oltre le popolazioni finite e i campioni finiti: cosa dovrebbe1/N essere preso alla pari in tali casi?

2. La nuova SD non è una media

Qualsiasi statistica degna del nome "medio" dovrebbe avere la proprietà che converge al valore della popolazione all'aumentare della dimensione di un campione casuale dalla popolazione. Qualsiasi multiplo fisso della SD avrebbe questa proprietà, poiché il moltiplicatore si applicherebbe sia al calcolo della SD campione sia alla SD di popolazione. (Anche se non contraddice direttamente l'argomento offerto da Alecos Papadopoulos, questa osservazione suggerisce che l'argomento è solo tangenziale ai problemi reali.) Tuttavia, la "nuova" SD, essendo uguale a 1/N volte il solito, converge ovviamente a0in tutte le circostanze quando la dimensione del campioneNaumenta. Pertanto,sebbene per qualsiasi dimensione fissa del campioneNla nuova SD (opportunamente interpretata) sia una misura di variazione perfettamente adeguata intorno alla media,non può legittimamente essere considerata unamisurauniversaleapplicabile, con la stessa interpretazione, per tutte le dimensioni del campione, né può essere correttamente definito "medio" in ogni senso utile.

3. La nuova SD è complicata da interpretare e utilizzare

Considera di prelevare campioni (diciamo) di dimensioni N=4 . La nuova SD in questi casi è volte il normale SD. Gode ​​quindi di interpretazioni comparabili, come un analogo della regola 68-95-99 (circa il 68% dei dati dovrebbe trovarsi all'interno diduenuove SD della media, il 95% all'interno diquattronuove SD della media,ecc.; e le versioni delle disuguaglianze classiche come quelle di Chebychev terranno (non più di1/k2dei dati possono trovarsi a più di2knuove SD lontano dalla loro media); e il Teorema del limite centrale può essere analizzato in modo analogo in termini di nuova SD (uno si divide per1/N=1/21/k22k volte la nuova SD per standardizzare la variabile). Pertanto, in questo senso specifico e chiaramente vincolato,non c'è nulla di sbagliato nella proposta dello studente. La difficoltà, tuttavia, è che tutte queste affermazioni contengono - in modo abbastanza esplicito - fattori diN. Sebbene non vi siano problemi matematici inerenti, ciò complica certamente le dichiarazioni e l'interpretazione delle leggi fondamentali della statistica.N=2


È da notare che Gauss e altri hanno originariamente parametrizzato la distribuzione gaussiana di , usando efficacemente2σ volte la DS per quantificare la diffusione di una variabile casuale normale. Questo uso storico dimostra la proprietà e l'efficacia dell'uso di altrimultiplifissidella SD al suo posto.2


Grazie - una domanda indietro (relativa al punto 2): fa non converge a0quandoNdiventa grande, mentre11N0N ovviamente? 1N
Tomka,

2
Stiamo confrontando la SD del campione con volte la SD del campione (la "nuova SD"). Man mano cheNcresce, la DS del campione si avvicina a unacostante(solitamente) diversa da zeropari alla SD della popolazione. Pertanto1/1/NN volte la SD campione converge a zero. 1/N
whuber

Questo è un materiale standard: consulta qualsiasi manuale di testo rigoroso nelle statistiche matematiche (che, per essere onesti, non sarebbe accessibile alla maggior parte dei principianti). Tuttavia, i risultati importanti per la mia risposta derivano da un'affermazione più debole e intuitivamente ovvia. Fissare un numero e lasciare che σ sia la popolazione SD. Considera la possibilità che la SD di esempio sia compresa tra σ / A e A σ . È sufficiente che questa possibilità vada a zero all'aumentare della dimensione del campione N. Questo da solo mostra che 1 / A>1σσ/AAσN volte la SD campione convergequasi sicuramentea0, dimostrando il punto (2) nella risposta. 1/N0
whuber

+1, più non è invariante alla scala ecc. (Una condizione necessaria per un momento di questo modulo)
Nikos M.

@Nikos Grazie, ma cosa non è invariante di scala? Entrambi eSDcambiano quando i dati vengono riscalati. SD/NSD
whuber

5

Supponiamo che il tuo campione contenga solo due realizzazioni. Immagino che una misura intuitiva di dispersione sarebbe la deviazione assoluta media (AAD)

AAD=12(|x1x¯|+|x2x¯|)=...=|x1x2|2

Quindi vorremmo che altre misure di dispersione allo stesso livello di unità di misura fossero "vicine" a quanto sopra.

La varianza del campione è definita come

σ2=12[(x1x¯)2+(x2x¯)2]=12[(x1x22)2+(x2x12)2]

=12[(x1x2)24+(x1x2)24]=12(x1x2)22

=12|x1x2|22

Per tornare alle unità di misura originali, se facessimo come lo studente si chiedeva / suggeriva, avremmo ottenuto la misura, chiamandola q

q12|x1x2|22=12|x1x2|2=12AAD<AAD

i.e. we would have "downplayed" the "intuitive" measure of dispersion, while if we have considered the standard deviation as defined,

SDσ2=|x1x2|2=AAD

Since we want to "stay as close as possible" to the intuitive measure, we should use SD.

ADDENDUM
Let's consider now a sample of size n We have

nAAD=i=1n|xix¯|

and

nVar(X)=i=1n(xix¯)2=i=1n|xix¯|2

we can write the right-hand side of the variance expression as

i=1n|xix¯|2=(i=1n|xix¯|)2ji|xix¯||xjx¯|

=(nAAD)2ji|xix¯||xjx¯|

Then the dispersion measure qn will be

qn1n[n2AAD2ji|xix¯||xjx¯|]1/2

=[AAD21n2ji|xix¯||xjx¯|]1/2

Now think informally: note that ji|xix¯||xjx¯| contains n2n terms, and so divided by n2 will left us with "one term in the second power". But also "one term in the 2nd power" is what we have in AAD2: this is a primitive way to "sense" why qn will tend to zero as n grows large. On the other hand the Standard Deviation as defined would be

SD1n[n2AAD2ji|xix¯||xjx¯|]1/2

=[nAAD21nji|xix¯||xjx¯|]1/2

Continuing are informal thinking, the first term gives us n "terms in the 2nd power", while the second term gives us n1 "terms in the second power" . So we will be left eventually with one such term, as n grows large, and then we will take its square root.
This does not mean that the Standard Deviation as defined will equal the Average Absolute Deviation in general (it doesn't), but it does show that it is suitably defined so as to be "on a par" with it for any n, as well as for the case when n.


1
Although this answer is interesting, I believe there are more important, convincing, and rigorous explanations (of which I have offered only a few in my own answer: much more could be said, especially concerning the role of the SD in the Central Limit theorem and algebraic rules for computing SDs of sums of independent random variables).
whuber

2
@whuber Certainly. I just opted for a "the bell has rung" approach to destroy the student's intermission!
Alecos Papadopoulos
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.