Metodo generale per derivare l'errore standard


11

Non riesco a trovare un metodo generale per derivare errori standard da nessuna parte. Ho cercato su Google, questo sito Web e persino nei libri di testo, ma tutto ciò che posso trovare è la formula per gli errori standard per media, varianza, proporzione, rapporto di rischio, ecc ... e non come sono arrivati ​​a queste formule.

Se qualcuno potesse spiegarlo in termini semplici o addirittura collegarmi a una buona risorsa che lo spiega, sarei grato.


2
Fornisco un modello generale semplice e lo applico, con tutti i dettagli elaborati, nel post all'indirizzo stats.stackexchange.com/a/18609/919 . Questo e molti altri post sugli errori standard (quasi un migliaio fino ad oggi) possono essere trovati cercando "errore standard" nel
whuber

Risposte:


22

Quello che vuoi trovare è la deviazione standard della distribuzione campionaria della media. Cioè, in parole povere, la distribuzione campionaria avviene quando scegli elementi dalla tua popolazione, sommali e dividi la somma per . Noi di trovare la varianza di questa quantità e ottenere la deviazione standard prendendo la radice quadrata della sua varianza.nn

Quindi, lascia che gli elementi che scegli siano rappresentati dalle variabili casuali , ognuna delle quali identicamente distribuita con varianza . Vengono campionati indipendentemente, quindi la varianza della somma è solo la somma delle varianze. Xi,1inσ2

Var(i=1nXi)=i=1nVar(Xi)=i=1nσ2=nσ2

Successivamente dividiamo per . Sappiamo in generale che , quindi inserendo abbiamonVar(kY)=k2Var(Y)k=1/n

Var(i=1nXin)=1n2Var(i=1nXi)=1n2nσ2=σ2n

Infine, prendi la radice quadrata per ottenere la deviazione standard . Quando la deviazione standard della popolazione non è disponibile, la deviazione standard del campione viene utilizzata come stima, fornendo .σnssn

Tutto quanto sopra è vero indipendentemente dalla distribuzione di s, ma pone la domanda su cosa vuoi veramente fare con l'errore standard? In genere potresti voler costruire intervalli di confidenza, ed è quindi importante assegnare una probabilità alla costruzione di un intervallo di confidenza che contenga la media.Xi

Se i tuoi sono normalmente distribuiti, questo è facile, perché anche la distribuzione di campionamento è normalmente distribuita. Si può dire che il 68% dei campioni della media si troverà all'interno di 1 errore standard della media reale, il 95% sarà entro 2 errori standard, ecc.Xi

Se hai un campione abbastanza grande (o un campione più piccolo e gli non sono troppo anormali) allora puoi invocare il teorema del limite centrale e dire che la distribuzione del campionamento è approssimativamente distribuita normalmente e anche le tue dichiarazioni di probabilità sono approssimative.Xi

Un caso in questione è la stima di una proporzione , in cui si disegnano elementi ciascuno da una distribuzione di Bernouilli. La varianza di ogni distribuzione è e quindi l'errore standard è (la proporzione viene stimata utilizzando i dati). Per poi saltare a dire che circa un po 'del% dei campioni si trova all'interno di così tante deviazioni standard della media, è necessario capire quando la distribuzione del campionamento è approssimativamente normale. Il campionamento ripetuto da una distribuzione di Bernouilli è lo stesso del campionamento da una distribuzione binomiale e una regola pratica comune è quella di approssimarsi solo quando e sonopnXip(1p)p(1p)/npnpn(1p)5. (Vedi Wikipedia per una discussione più approfondita sull'approssimazione del binomio con normale. Vedi qui per un esempio funzionante di errori standard con una proporzione.)

Se, d'altra parte, la distribuzione del campionamento non può essere approssimata da una distribuzione normale, l'errore standard è molto meno utile. Ad esempio, con una distribuzione asimmetrica molto distorta non si può dire che la stessa% di campioni sarebbe una deviazione standard entrambi i lati della media e si potrebbe desiderare di trovare un modo diverso di associare le probabilità ai campioni.±1


Grazie, questo approccio ha senso e posso vedere come si applica alla media ma non riesco a vedere come estenderlo ad altre statistiche. Ad esempio, come troverei l'errore standard di una tariffa? o un rapporto di tasso?
Daniel Gardiner,

Ho aggiornato il mio post. Il punto chiave è che quantità come media, varianza, ecc. - e quindi stderr - possono essere trovate per qualsiasi distribuzione. Ma per fare dichiarazioni di probabilità devi sapere qualcosa sulla distribuzione, sia normale, binomiale o altro. Quindi lo stderr può sempre essere trovato, ma quanto sia utile dipende dalla situazione.
TooTone

se n è fisso e rappresenta solo una frazione dell'intera popolazione, perché hai scritto quel ? e nonvar(Xi)=σ2s2
Oleg

1
@Oleg è una variabile casuale e ha una varianza, anche se non sai di cosa si tratta. Non è corretto scrivere varianza ( ) = , perché è la stima della varianza, che quasi certamente non è la varianza della popolazione. È più facile usare le varianze, anche se in genere sono sconosciute, per ottenere la varianza della somma di un campione, o la media del campione, perché stai usando regole di probabilità semplici. Basta usare la linearità, cioè varianza di somma = somma di varianza. Una volta derivata la varianza, "ricordi" di non conoscere la varianza ( ), quindi usiXiXis2s2Xis2
TooTone

4

L'errore standard è la deviazione standard della statistica (sotto l'ipotesi nulla, se stai testando). Un metodo generale per trovare l'errore standard sarebbe quello di trovare prima la funzione di generazione del momento o della distribuzione della tua statistica, trovare il secondo momento centrale e prendere la radice quadrata.

Ad esempio, se stai campionando da una distribuzione normale con media e varianza , la media di esempio è normalmente distribuito con media e varianza . Questo può essere derivato da tre proprietà:μσ2X¯=1ni=1nXiμσ2/n

  1. La somma di variabili casuali indipendenti è normale,
  2. E[i=1naiXi]=i=1naiE[Xi] ,
  3. Se e sono indipendenti, .X1X2Var(a1X1+a2X2)=a12Var(X1)+a22Var(X2)

Pertanto l'errore standard della media del campione, che è la radice quadrata della sua varianza, è .σ/n

Ci sono scorciatoie, come se non dovessi necessariamente trovare la distribuzione della statistica, ma penso che concettualmente sia utile avere le distribuzioni nella tua mente se le conosci.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.