Differenza tra errore standard e deviazione standard


96

Faccio fatica a capire la differenza tra l'errore standard e la deviazione standard. In che modo differiscono e perché è necessario misurare l'errore standard?


7
Un breve commento, non una risposta poiché sono già presenti due utili: la deviazione standard è una proprietà della (distribuzione) delle variabili casuali. L'errore standard è invece correlato a una misurazione su un campione specifico. I due possono confondersi quando si confonde la distinzione tra universo e campione.
Francesco,

Risposte:


31

Per completare la risposta alla domanda, Ocram ha affrontato bene l'errore standard ma non lo ha contrastato con la deviazione standard e non ha menzionato la dipendenza dalla dimensione del campione. Come caso speciale per lo stimatore considerare la media del campione. L'errore standard per la media è doveσ/nσè la deviazione standard della popolazione. Quindi in questo esempio vediamo esplicitamente come l'errore standard diminuisce con l'aumentare della dimensione del campione. La deviazione standard viene spesso utilizzata per fare riferimento alle singole osservazioni. Quindi la deviazione standard descrive la variabilità delle singole osservazioni mentre l'errore standard mostra la variabilità dello stimatore. I buoni stimatori sono coerenti, il che significa che convergono al vero valore del parametro. Quando il loro errore standard diminuisce a 0 all'aumentare della dimensione del campione, gli stimatori sono coerenti, il che nella maggior parte dei casi si verifica perché l'errore standard va a 0 come vediamo esplicitamente con la media del campione.


3
Ri: "... coerente, il che significa che il loro errore standard diminuisce a 0" - non è vero. Ricordi questa discussione: stats.stackexchange.com/questions/31036/… ?
Macro,

1
Sì, certo, ricordo la discussione sulle eccezioni insolite e ci stavo pensando quando ho risposto alla domanda. Ma la domanda riguardava gli errori standard e in termini semplicistici le stime dei buoni parametri sono coerenti e i loro errori standard tendono a 0 come nel caso della media del campione.
Michael Chernick,

4
Sono d'accordo con il tuo commento: l'errore standard della media del campione va a 0 e la media del campione è coerente. Ma il suo errore standard che va a zero non è una conseguenza (o equivalente a) del fatto che è coerente, che è quello che dice la tua risposta.
Macro,

3
@Macro sì, la risposta potrebbe essere migliorata, cosa che ho deciso di fare. Penso che sia importante non essere troppo tecnici con i PO poiché qualificare tutto può essere complicato e confuso. Ma l'accuratezza tecnica non dovrebbe essere sacrificata per semplicità. Quindi penso che il modo in cui ho affrontato questo problema nella mia modifica sia il modo migliore per farlo.
Michael Chernick,

9
Sono d'accordo che è importante non essere tecnici se non assolutamente necessario. Il mio unico commento è stato che, una volta che hai già scelto di introdurre il concetto di coerenza (un concetto tecnico), è inutile caratterizzarlo erroneamente nel nome di rendere la risposta più facile da capire. Penso che la tua modifica risponda ai miei commenti.
Macro,

51

Ecco una risposta più pratica (e non matematica):

  • La SD (deviazione standard) quantifica la dispersione - quanto i valori variano l'uno dall'altro.
  • Il SEM (errore standard della media) quantifica la precisione con cui conosci la vera media della popolazione. Tiene conto sia del valore della SD che della dimensione del campione.
  • Sia SD che SEM sono nelle stesse unità - le unità dei dati.
  • SEM, per definizione, è sempre più piccolo della SD.
  • Il SEM si riduce man mano che i campioni diventano più grandi. Ciò ha senso, poiché è probabile che la media di un campione ampio sia più vicina alla media della popolazione reale rispetto alla media di un campione piccolo. Con un campione enorme, conoscerai il valore della media con molta precisione anche se i dati sono molto dispersi.
  • La SD non cambia in modo prevedibile quando si acquisiscono più dati. La SD calcolata da un campione è la migliore stima possibile della SD dell'intera popolazione. Man mano che raccogli più dati, valuterai la SD della popolazione con maggiore precisione. Ma non puoi prevedere se la SD di un campione più grande sarà più grande o più piccola della SD di un campione piccolo. (Questa è una semplificazione, non del tutto vera. Vedi i commenti qui sotto.)

Si noti che gli errori standard possono essere calcolati per quasi tutti i parametri calcolati dai dati, non solo dalla media. La frase "l'errore standard" è un po 'ambigua. I punti precedenti si riferiscono solo all'errore standard della media.

(Dalla guida alle statistiche GraphPad che ho scritto.)


11
+1 Per consigli chiari e utili. Ma alcuni chiarimenti sono in ordine, di cui il più importante va all'ultimo proiettile: vorrei sfidarti a un gioco di pronostici SD. Osserviamo la SD di campioni iid di, diciamo, una distribuzione normale. Io voglio prevedere se la SD sta per essere superiore o inferiore dopo altri campioni, dico. Mi paghi un dollaro se ho ragione, altrimenti ti pago un dollaro. (Con il gioco corretto - che vi invito a capire! - l'aspettativa di questo gioco è positiva per me, che arriva a circa dollari quando )n100n.18n=2
whuber

4
@whuber: Certo che hai ragione. È la varianza (quadrato SD) che non cambierà in modo prevedibile quando si aggiungono più dati. La SD diventerà un po 'più grande con l'aumentare della dimensione del campione, specialmente quando si inizia con piccoli campioni. Questa modifica è minuscola rispetto alla modifica del SEM quando cambiano le dimensioni del campione.
Harvey Motulsky,

@HarveyMotulsky: Perché aumenta l'sd?
Andrew,

Con campioni di grandi dimensioni, la varianza del campione sarà abbastanza vicina alla varianza della popolazione, quindi la SD del campione sarà vicina alla SD della popolazione. Con campioni più piccoli, la varianza del campione equivale in media alla varianza della popolazione, ma le discrepanze saranno maggiori. Se simmetrici come varianze, saranno asimmetrici come SD. Esempio: la varianza della popolazione è 100. Due varianze del campione sono 80 o 120 (simmetriche). La SD di esempio dovrebbe essere 10, ma sarà 8.94 o 10.95. SD media campionaria da una distribuzione simmetrica intorno alla varianza della popolazione e la SD media sarà bassa, con un basso N.
Harvey Motulsky

43

Consenti a essere il parametro di interesse per il quale vuoi dedurre. Per fare questo, hai a tua disposizione un campione di osservazioni insieme ad alcune tecniche per ottenere una stima di , . In questa notazione, ho chiarito che dipende da . In effetti, se avessi avuto un altro campione, , avresti finito con un'altra stima, . Questo rende realizzazione di una variabile casuale che denotoθx={x1,,xn}θθ^(x)θ^(x)xx~θ^(x~)θ^(x)θ^. Questa variabile casuale è chiamata stimatore. L' errore standard di (= stima) è la deviazione standard di (= variabile casuale). Contiene informazioni su quanto sei sicuro del tuo preventivo. Se è grande, significa che avresti potuto ottenere una stima totalmente diversa se avessi estratto un altro campione. L'errore standard viene utilizzato per costruire intervalli di confidenza.θ^(x)θ^


1
L'errore standard della stima è uguale alla deviazione standard della variabile stimata?
Yurii,

6

(nota che mi sto concentrando sull'errore standard della media, che credo sia stato anche l'interrogatore, ma puoi generare un errore standard per qualsiasi statistica di esempio)

L'errore standard è correlato alla deviazione standard ma non sono la stessa cosa e l'aumento della dimensione del campione non li avvicina. Piuttosto, li rende più distanti. La deviazione standard del campione si avvicina alla deviazione standard della popolazione all'aumentare della dimensione del campione ma non dell'errore standard.

A volte la terminologia intorno a questo è un po 'spessa da capire.

Quando si raccoglie un campione e si calcola la deviazione standard di quel campione, man mano che il campione aumenta di dimensioni, la stima della deviazione standard diventa sempre più accurata. Sembra dalla tua domanda che era quello a cui stavi pensando. Ma considera anche che la media del campione tende ad essere più vicina alla media della popolazione. Questo è fondamentale per comprendere l'errore standard.

L'errore standard riguarda ciò che accadrebbe se si ottenessero più campioni di una determinata dimensione. Se prendi un campione di 10 puoi ottenere una stima della media. Quindi prendi un altro campione di 10 e una nuova stima media, e così via. La deviazione standard delle medie di tali campioni è l'errore standard. Dato che hai posto la tua domanda, probabilmente ora puoi vedere che se la N è alta, l'errore standard è più piccolo perché la media dei campioni sarà meno probabile che si discosti molto dal valore reale.

Ad alcuni suona un po 'miracoloso dato che l'hai calcolato da un campione. Quindi, ciò che potresti fare è avviare un errore standard tramite la simulazione per dimostrare la relazione. In R sarebbe simile a:

# the size of a sample
n <- 10
# set true mean and standard deviation values
m <- 50
s <- 100

# now generate lots and lots of samples with mean m and standard deviation s
# and get the means of those samples. Save them in y.
y <- replicate( 10000, mean( rnorm(n, m, s) ) )
# standard deviation of those means
sd(y)
# calcuation of theoretical standard error
s / sqrt(n)

Scoprirai che questi ultimi due comandi generano lo stesso numero (approssimativamente). Puoi variare i valori n, m e s e usciranno sempre abbastanza vicini l'uno all'altro.


L'ho trovato davvero utile, grazie per la pubblicazione. Sarebbe giusto quindi descrivere l'errore standard come "la deviazione standard della distribuzione campionaria"? La distribuzione di campionamento è y nel tuo blocco di codice sopra? Questo è ciò che mi ha confuso, unendo i parametri di campionamento sd e significa con i parametri di distribuzione del campionamento.
Doug Fir,

1
Se modifichi la tua formulazione per specificare mezzi di esempio per questo caso, sì.
Giovanni
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.