Faccio fatica a capire la differenza tra l'errore standard e la deviazione standard. In che modo differiscono e perché è necessario misurare l'errore standard?
Faccio fatica a capire la differenza tra l'errore standard e la deviazione standard. In che modo differiscono e perché è necessario misurare l'errore standard?
Risposte:
Per completare la risposta alla domanda, Ocram ha affrontato bene l'errore standard ma non lo ha contrastato con la deviazione standard e non ha menzionato la dipendenza dalla dimensione del campione. Come caso speciale per lo stimatore considerare la media del campione. L'errore standard per la media è doveè la deviazione standard della popolazione. Quindi in questo esempio vediamo esplicitamente come l'errore standard diminuisce con l'aumentare della dimensione del campione. La deviazione standard viene spesso utilizzata per fare riferimento alle singole osservazioni. Quindi la deviazione standard descrive la variabilità delle singole osservazioni mentre l'errore standard mostra la variabilità dello stimatore. I buoni stimatori sono coerenti, il che significa che convergono al vero valore del parametro. Quando il loro errore standard diminuisce a 0 all'aumentare della dimensione del campione, gli stimatori sono coerenti, il che nella maggior parte dei casi si verifica perché l'errore standard va a 0 come vediamo esplicitamente con la media del campione.
Ecco una risposta più pratica (e non matematica):
Si noti che gli errori standard possono essere calcolati per quasi tutti i parametri calcolati dai dati, non solo dalla media. La frase "l'errore standard" è un po 'ambigua. I punti precedenti si riferiscono solo all'errore standard della media.
(Dalla guida alle statistiche GraphPad che ho scritto.)
Consenti a essere il parametro di interesse per il quale vuoi dedurre. Per fare questo, hai a tua disposizione un campione di osservazioni insieme ad alcune tecniche per ottenere una stima di , . In questa notazione, ho chiarito che dipende da . In effetti, se avessi avuto un altro campione, , avresti finito con un'altra stima, . Questo rende realizzazione di una variabile casuale che denoto. Questa variabile casuale è chiamata stimatore. L' errore standard di (= stima) è la deviazione standard di (= variabile casuale). Contiene informazioni su quanto sei sicuro del tuo preventivo. Se è grande, significa che avresti potuto ottenere una stima totalmente diversa se avessi estratto un altro campione. L'errore standard viene utilizzato per costruire intervalli di confidenza.
(nota che mi sto concentrando sull'errore standard della media, che credo sia stato anche l'interrogatore, ma puoi generare un errore standard per qualsiasi statistica di esempio)
L'errore standard è correlato alla deviazione standard ma non sono la stessa cosa e l'aumento della dimensione del campione non li avvicina. Piuttosto, li rende più distanti. La deviazione standard del campione si avvicina alla deviazione standard della popolazione all'aumentare della dimensione del campione ma non dell'errore standard.
A volte la terminologia intorno a questo è un po 'spessa da capire.
Quando si raccoglie un campione e si calcola la deviazione standard di quel campione, man mano che il campione aumenta di dimensioni, la stima della deviazione standard diventa sempre più accurata. Sembra dalla tua domanda che era quello a cui stavi pensando. Ma considera anche che la media del campione tende ad essere più vicina alla media della popolazione. Questo è fondamentale per comprendere l'errore standard.
L'errore standard riguarda ciò che accadrebbe se si ottenessero più campioni di una determinata dimensione. Se prendi un campione di 10 puoi ottenere una stima della media. Quindi prendi un altro campione di 10 e una nuova stima media, e così via. La deviazione standard delle medie di tali campioni è l'errore standard. Dato che hai posto la tua domanda, probabilmente ora puoi vedere che se la N è alta, l'errore standard è più piccolo perché la media dei campioni sarà meno probabile che si discosti molto dal valore reale.
Ad alcuni suona un po 'miracoloso dato che l'hai calcolato da un campione. Quindi, ciò che potresti fare è avviare un errore standard tramite la simulazione per dimostrare la relazione. In R sarebbe simile a:
# the size of a sample
n <- 10
# set true mean and standard deviation values
m <- 50
s <- 100
# now generate lots and lots of samples with mean m and standard deviation s
# and get the means of those samples. Save them in y.
y <- replicate( 10000, mean( rnorm(n, m, s) ) )
# standard deviation of those means
sd(y)
# calcuation of theoretical standard error
s / sqrt(n)
Scoprirai che questi ultimi due comandi generano lo stesso numero (approssimativamente). Puoi variare i valori n, m e s e usciranno sempre abbastanza vicini l'uno all'altro.