Oggi ho insegnato a una classe introduttiva di statistica e uno studente mi ha fatto una domanda, che riformulo qui come: "Perché la deviazione standard è definita come sqrt di varianza e non come sqrt di somma dei quadrati su N?"
Definiamo la varianza della popolazione:
E deviazione standard: .
L'interpretazione possiamo dare a è che dà la deviazione media di unità nella popolazione dalla media popolazione di X .
Tuttavia, nella definizione di sd dividiamo il sqrt della somma dei quadrati per . La domanda lo studente pone è per questo che non dividiamo la sqrt del sume delle piazze da , invece. Veniamo così alla formula concorrente:Lo studente ha sostenuto che questa formula assomiglia più a una deviazione "media" dalla media che a quando si divide tra \ sqrt {N} come in \ sigma .
Pensavo che questa domanda non fosse stupida. Vorrei dare una risposta allo studente che va oltre il dire che lo sd è definito come sqrt della varianza che è il deviato quadrato medio. In altre parole, perché lo studente dovrebbe usare la formula corretta e non seguire la sua idea?
Questa domanda riguarda un thread precedente e le risposte fornite qui . Le risposte vanno in tre direzioni:
- è la deviazione radice-media-quadrata (RMS), non la deviazione "tipica" dalla media (cioè, ). Pertanto, è definito in modo diverso.
- Ha delle belle proprietà matematiche.
- Inoltre, sqrt riporterebbe le "unità" alla loro scala originale. Tuttavia, questo sarebbe anche il caso di , che divide per , invece.
Entrambi i punti 1 e 2 sono argomenti a favore di sd come RMS, ma non vedo un argomento contro l'uso di . Quali sarebbero i buoni argomenti per convincere gli studenti di livello introduttivo dell'uso della distanza RMS media dalla media?
"Why is the standard deviation defined as sqrt of variance and not as average of [the root of] sum of squares?"
Potrebbe essere che ciò che è racchiuso tra parentesi si sia in qualche modo perso nella domanda?