Errore standard per la media di un campione di variabili casuali binomiali


44

Supponiamo che stia eseguendo un esperimento che può avere 2 risultati e suppongo che la distribuzione "vera" sottostante dei 2 risultati sia una distribuzione binomiale con parametri n e p : Binomial(n,p) .

Posso calcolare l'errore standard, SEX=σXn , dalla forma della varianza di Bionomioun'l(n,p):

σX2=npq
doveq=1-p. Quindi,σX=npq . Per l'errore standard ottengo:SEX=pq , ma ho visto da qualche parte cheSEX=pqn . Cosa ho fatto di sbagliato?

Questo articolo è molto utile per comprendere l'errore standard della media influentialpoints.com/Training/…
Sanghyun Lee

Dal mio google, sembra che l'argomento strettamente correlato di ottenere intervalli di confidenza per una distribuzione binomiale sia piuttosto sfumato e complicato. In particolare, sembra che gli intervalli di confidenza ottenuti da questa formula, che sarebbe "Wald Intervals" (vedi en.wikipedia.org/wiki/Binomial_proportion_confidence_interval ), è piuttosto scarsamente comportato e dovrebbe essere evitato. Vedi jstor.org/stable/2676784?seq=1#metadata_info_tab_contents per maggiori informazioni.
aquirdturtle,

Risposte:


58

Sembra che tu stia usando due volte in due modi diversi - sia come dimensione del campione che come numero di prove di bernoulli che comprendono la variabile casuale binomiale; per eliminare ogni ambiguità, userò k per fare riferimento a quest'ultimo.nK

Se si dispone di campioni indipendenti da un B i n o m i un l ( k , p ) la distribuzione, la varianza della media campionaria ènBionomioun'l(K,p)

vun'r(1nΣio=1nXio)=1n2Σio=1nvun'r(Xio)=nvun'r(Xio)n2=vun'r(Xio)n=Kpqn

dove e ¯ X è la stessa media. Questo segue da alloraq=1-pX¯

(1) ,vun'r(cX)=c2vun'r(X) per qualsiasi variabile casuale, e qualsiasi costante c .Xc

(2) la varianza di una somma di variabili casuali indipendenti è uguale alla somma delle varianze .

L'errore standard di è la radice quadrata della varianza: X¯ . Perciò,Kpqn

  • Quando , ottieni la formula che hai indicato: K=npq

  • Quando e le variabili binomiali sono solo prove di bernoulli , ottieni la formula che hai visto altrove: K=1pqn


3
Quando è una variabile casuale bernoulli , allora v a r ( X ) = p q . Quando X ha una variabile casuale binomiale basata su n prove con probabilità di successo p , allora v a r ( X ) = n p qXvun'r(X)=pqXnpvun'r(X)=npq
Macro

2
Grazie! Hai sollevato la mia confusione. Mi dispiace che sia stato così elementare, sto ancora imparando :-)
Frank

6
Quindi è chiaro a Frank che stiamo usando il fatto che per ogni costante c Var (cX) = c 2 Var (x)? Poiché la stima del campione della proporzione è X / n, abbiamo Var (X / n) = Var (X) / n 2 = npq / n 2 = pq / n e SEx è la radice quadrata di quello. Penso che sia più chiaro per tutti se compitiamo tutti i passaggi. 222
Michael Chernick,

1
@MichaelChernick, ho chiarito i dettagli che hai citato. Sulla base della descrizione del problema, ho pensato che Frank conoscesse questi fatti, ma hai ragione nel dire che sarebbe più educativo per i futuri lettori includere i dettagli.
Macro

2
Sol Lago - In questo caso k = 1. Se hai lanciato una moneta 50 volte e calcolato il numero di successi e poi ripetuto l'esperimento 50 volte, allora k = n = 50. Un lancio di una moneta risulta in 1 o 0. È un Bernoulli rv
B_Miner

9

È facile confondere due distribuzioni binomiali:

  • distribuzione del numero di successi
  • distribuzione della percentuale di successi

npq è il numero di successi, mentre npq / n = pq è il rapporto tra successi. Ciò si traduce in diverse formule di errore standard.


6

Possiamo osservarlo nel modo seguente:

Supponiamo di fare un esperimento in cui dobbiamo lanciare una moneta imparziale volte. Il risultato complessivo dell'esperimento è Y, che è la somma dei singoli lanci (diciamo, testa come 1 e coda come 0). Quindi, per questo esperimento, Y = n i = 1 X i , dove X i sono risultati di lanci individuali.nYY=Σio=1nXioXio

Qui, il risultato di ogni lancio, , segue una distribuzione di Bernoulli e il risultato complessivo Y segue una distribuzione binomiale.XioY

L'esperimento completo può essere pensato come un singolo campione. Pertanto, se ripetiamo l'esperimento, possiamo ottenere un altro valore di , che formerà un altro campione. Tutti i possibili valori di Y costituiranno la popolazione completa.YY

Tornando al lancio della moneta singola, che segue una distribuzione di Bernoulli, la varianza è data da , dove p è la probabilità di testa (successo) e q = 1 - p .pqpq=1-p

Ora, se osserviamo la varianza di , V ( Y ) = V ( X i ) = V ( X i ) . Ma, per tutti i singoli esperimenti di Bernoulli, V ( X i ) = p q . Poiché nell'esperimento ci sono n lanci o prove di Bernoulli, V ( Y ) = V ( X i ) = n p q . Questo implica cheYV(Y)=V(ΣXio)=ΣV(Xio)V(Xio)=pqnV(Y)=ΣV(Xio)=npq ha varianza n p q .Ynpq

Ora, la proporzione del campione è dato da p = Y , che fornisce la "proporzione di successo o di teste". Qui,nè una costante in quanto prevediamo di fare lo stesso numero di lanci di monete per tutti gli esperimenti nella popolazione.p^=Ynn

Quindi, .V(Yn)=(1n2)V(Y)=(1n2)(npq)=pq/n

Così, errore standard per p (una statistica del campione) è p^pq/n


Puoi usare la composizione in lattice mettendo dollari intorno alla tua matematica, ad es. $x$ . X
Silverfish,

V(ΣXio)=ΣV(Xio)

C'è un errore di battitura nell'ultima detrazione, V (Y / n) = (1 / n ^ 2) * V (Y) = (1 / n ^ 2) * npq = pq / n dovrebbe essere la detrazione corretta.
Tarashankar,

Mi scuso, ho introdotto questo quando si fa la composizione. Spero che ora sia ordinato.
Silverfish,

1
Xio

2

Penso che ci sia anche un po 'di confusione nel post iniziale tra errore standard e deviazione standard. La deviazione standard è il sqrt della varianza di una distribuzione; l'errore standard è la deviazione standard della media stimata di un campione da quella distribuzione, vale a dire la diffusione dei mezzi che osserveresti se lo facessi all'infinito molte volte. Il primo è una proprietà intrinseca della distribuzione; quest'ultimo è una misura della qualità della stima di una proprietà (la media) della distribuzione. Quando fai un esperimento di prove di N Bernouilli per stimare la probabilità sconosciuta di successo, l'incertezza della tua p = k / N stimata dopo aver visto k successi è un errore standard della proporzione stimata, sqrt (pq / N) dove q = 1 -p. La vera distribuzione è caratterizzata da un parametro P, la vera probabilità di successo.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.