Perché le scuole statunitensi e britanniche insegnano diversi metodi di calcolo della deviazione standard?

15

Da quanto ho capito, le scuole del Regno Unito insegnano che la deviazione standard si trova usando:

$testo alternativo$

mentre le scuole statunitensi insegnano:

$testo alternativo$

(comunque a livello base).

Ciò ha causato numerosi problemi ai miei studenti in passato poiché hanno cercato su Internet, ma hanno trovato una spiegazione sbagliata.

Perché la differenza

Con set di dati semplici dicono 10 valori, che grado di errore ci sarà se viene applicato il metodo sbagliato (ad esempio in un esame)?

— Amos
fonte

4

Non sono sicuro che caratterizzare l'uno o l'altro come formula "sbagliata" sia il modo di comprendere il problema. È solo che il secondo è "migliore", nel senso che è uno stimatore imparziale della vera deviazione standard. Pertanto, se ti interessano stime imparziali, la seconda è "migliore" / "corretta".

Stavo caratterizzando la formula come "sbagliata" semplicemente nel senso che in un esame se usi la formula che non è proibita dal programma, finirai con la risposta "sbagliata". Inoltre, se i valori non sono un campione di popolazione in sé, sicuramente la prima formula fornisce il valore più accurato.

— Amos,

14

Srikant, non penso che il secondo sia uno stimatore imparziale. Il quadrato di esso è uno stimatore imparziale della vera varianza. Tuttavia, la disuguaglianza di Jensen stabilisce che l'aspettativa di una funzione curvilinea di una variabile casuale non è la stessa dell'aspettativa della variabile casuale. Quindi la seconda formula non può essere uno stimatore imparziale della vera deviazione standard.

— Andrew Robinson,

Per riferimenti incrociati: è stato anche chiesto a @ m.SE ...

— JM non è uno statistico il

4

Tutte le scuole degli Stati Uniti utilizzando il testo elementare, molto popolare da Freedman, Pisani, e Purves sta usando la prima formula (

), così sembra errato caratterizzare questo come un US vs UK differenza.

s_{n}

$s_n$

— whuber

18

La prima formula è la deviazione standard della popolazione e la seconda formula è la deviazione standard del campione . La seconda formula è anche correlata allo stimatore imparziale della varianza - vedi Wikipedia per ulteriori dettagli.

Suppongo che (qui) nel Regno Unito non facciano distinzione tra campione e popolazione al liceo. Certamente non toccano concetti come stimatori distorti.

— csgillespie
fonte

4

Colin, uno stimatore imparziale della deviazione standard non ha una rappresentazione in forma chiusa nel caso generale. Ciò che esiste è lo stimatore imparziale della varianza (s 2 in questo caso). È degno di nota che entrambi sono stimatori coerenti della varianza della popolazione - e quindi dal teorema della mappatura continua, sono i due stimatori delle deviazioni standard. Un punto correlato è che s n 2 ha un MSE inferiore rispetto a s 2 . Il vantaggio aggiuntivo derivante dall'imposizione di imparzialità è discutibile.

— Mornington,

@Tirthankar - molto sciatto da parte mia. Ho leggermente modificato la risposta. Grazie.

— csgillespie,

2

Per quanto ricordo, mi è stato insegnato il calcolo del "campione" in matematica e scienze GCSE (età 14-16) e la distinzione tra popolazioni e campioni e le loro misure di varianza associate sono state coperte (anche se non in modo approfondito) a livello A ( età 16-18). Quindi non sono sicuro che questa sia una semplice differenza tra Regno Unito e Stati Uniti.

— Freya Harrison,

11

Perché nessuno ha ancora risposto alla domanda finale - vale a dire, per quantificare le differenze tra le due formule - occupiamoci di questo.

Per molte ragioni, è opportuno confrontare le deviazioni standard in termini di rapporti piuttosto che di differenze. Il rapporto è

s_{n} / s = \sqrt{\frac{N - 1}{N}} = \sqrt{1 - \frac{1}{N}} \approx 1 - \frac{1}{2 N} .

$s_n / s = \sqrt{\frac{N-1}{N}} = \sqrt{1 - \frac{1}{N}} \approx 1 - \frac{1}{2N}.$

$|\binom{1/2}{2}N^{-2}|$ $1 / (8 N^2)$ $N$ $2$

$N$ $5$ $N$ $10$ SD, come quando si confrontano gli spread di due set di dati. (Quando i set di dati sono equinamici, le discrepanze svaniscono effettivamente del tutto ed entrambe le formule portano a conclusioni identiche.) Probabilmente, queste sono le forme di ragionamento che stiamo cercando di insegnare agli studenti principianti, quindi se gli studenti si preoccupano della formula da utilizzare, questo potrebbe essere preso come un segno che il testo o la classe non riesce a enfatizzare ciò che è veramente importante.

$N$ $t$ $z$ $s$ $s_n$

— whuber
fonte

6

Questa è la correzione di Bessel . La versione USA mostra la formula per la deviazione standard del campione , dove la versione UK sopra è la deviazione standard del campione .

— Reed Copsey
fonte

5

Non sono sicuro che si tratti di una questione puramente americana o britannica. Il resto di questa pagina è estratto da una domanda che ho scritto ( http://www.graphpad.com/faq/viewfaq.cfm?faq=1383 ).

Come calcolare la SD con n-1 nel denominatore

Calcola il quadrato della differenza tra ciascun valore e la media del campione.
Aggiungi quei valori.
Dividi la somma per n-1. Il risultato si chiama varianza.
Prendi la radice quadrata per ottenere la deviazione standard.

Perché n-1?

Perché dividere per n-1 anziché per n quando si calcola una deviazione standard? Nel passaggio 1, si calcola la differenza tra ciascun valore e la media di tali valori. Non conosci la vera media della popolazione; tutto quello che sai è la media del tuo campione. Ad eccezione dei rari casi in cui la media del campione coincide con la media della popolazione, i dati saranno più vicini alla media del campione di quanto non lo saranno alla media della popolazione reale. Quindi il valore che calcoli nel passaggio 2 sarà probabilmente un po 'più piccolo (e non può essere più grande) di quello che sarebbe se tu usassi la media della vera popolazione nel passaggio 1. Per compensare, dividi per n-1 piuttosto di nv Questo si chiama correzione di Bessel.

Ma perché n-1? Se sapessi la media del campione e tutti i valori tranne uno, potresti calcolare quale deve essere l'ultimo valore. Gli statistici dicono che ci sono n-1 gradi di libertà.

Quando la SD dovrebbe essere calcolata con un denominatore di n invece di n-1?

I libri statistici mostrano spesso due equazioni per calcolare la SD, una usando n e l'altra usando n-1, nel denominatore. Alcuni calcolatori hanno due pulsanti.

L'equazione n-1 viene utilizzata nella situazione comune in cui si sta analizzando un campione di dati e si desidera trarre conclusioni più generali. La SD calcolata in questo modo (con n-1 nel denominatore) è la tua ipotesi migliore per il valore della SD nella popolazione complessiva.

Se si desidera semplicemente quantificare la variazione in un determinato insieme di dati e non si prevede di estrapolare per trarre conclusioni più ampie, è possibile calcolare la SD utilizzando n nel denominatore. La SD risultante è la SD di quei valori particolari. Non ha senso calcolare la SD in questo modo se si desidera stimare la SD della popolazione da cui sono stati estratti quei punti. Ha senso usare n nel denominatore quando non c'è campionamento da una popolazione, non c'è desiderio di trarre conclusioni generali.

L'obiettivo della scienza è quasi sempre quello di generalizzare, quindi l'equazione con n nel denominatore non dovrebbe essere usata. L'unico esempio che mi viene in mente dove potrebbe avere senso è quantificare la variazione tra i punteggi degli esami. Ma molto meglio sarebbe mostrare un diagramma a dispersione di ogni punteggio o un istogramma di distribuzione delle frequenze.

— Harvey Motulsky
fonte

1

Non stavo suggerendo che lo fosse, ero solo curioso di sapere perché una tale differenza potesse essersi verificata, che tipo di livello di errore seguire i consigli sbagliati potesse dare e se ci fosse una spiegazione decente della differenza che avrei potuto dare ai miei studenti .

— Amos,

@harvey - il link è morto

— baxx l'

1

@baxx .. Grazie per averlo segnalato. Fisso.

— Harvey Motulsky

3

Poiché N è il numero di punti nella serie di dati, si potrebbe sostenere che calcolando la media si è ridotto di uno il grado di libertà nella serie di dati (poiché si è introdotta una dipendenza nella serie di dati), quindi si dovrebbe usare N -1 quando si stima la deviazione standard da un set di dati per il quale si è dovuto stimare la media prima.

— Benjamin Bannier
fonte