Supponiamo che tu voglia sapere quale percentuale di persone voterebbe per un determinato candidato (diciamo, , nota che per definizione π è compreso tra 0 e 100). Campionate N votanti a caso per scoprire come voterebbero e il vostro sondaggio su questi N votanti vi dice che la percentuale è p . Quindi, si desidera stabilire un intervallo di confidenza per la percentuale reale.ππNNp
Se supponi che sia normalmente distribuito (un presupposto che può o non può essere giustificato a seconda di quanto è "grande" N ), il tuo intervallo di confidenza per π sarebbe della seguente forma:
C I = [ p - k ∗ s d ( p ) , p + k ∗ s d ( p ) ]
dove k è una costante che dipende dall'entità della fiducia desiderata (ovvero, 95% o 99% ecc.).pNπ
CI=[p−k∗sd(p), p+k∗sd(p)]
k
Dal punto di vista del polling, la larghezza dell'intervallo di confidenza deve essere "bassa". Di solito, i sondaggisti lavorano con il margine di errore che è fondamentalmente metà dell'IC. In altre parole, . MoE=k∗sd(p)
Ecco come saremmo andati sul calcolo : Per definizione, p = Σ X i / N , dove, X i = 1 se elettore i voti per il candidato e 0 altrimenti.sd(p)p=∑Xi/NXi=1i0
Da allora, abbiamo campionato gli elettori a caso, potremmo supporre che sia una variabile casuale di Bernoulli. Pertanto,
V a r ( P ) = V ( ∑ X iXi
Quindi,
sd(p)=√
Var(P)=V(∑XiN)=∑V(Xi)N2=Nπ(1−π)N2=π(1−π)N.
Ora per stimare il margine di errore dobbiamo conoscere
πche ovviamente non conosciamo. Ma un'ispezione del numeratore suggerisce che la stima "peggiore" per
sd(p)nel senso che otteniamo la deviazione standard "più grande" è quando
π=0,5. Pertanto, la peggiore deviazione standard possibile è:
sd(p)=√sd(p)=π∗(1−π)N−−−−−−−−−√
πsd(p)π=0.5
Quindi, vedi che il margine di errore diminuisce esponenzialmente con
Ne quindi non hai davvero bisogno di campioni molto grandi per ridurre il margine di errore, o in altre parole
Nnon deve essere molto grande per ottenere un intervallo di confidenza stretto .
sd(p)=0.5∗0.5/N−−−−−−−−−√=0.5/N−−√
NN
Ad esempio, per un intervallo di confidenza al 95% (ovvero, ) e N = 1000 , l'intervallo di confidenza è:
[ p - 1,96 0,5k=1.96N=1000
[p−1.960.51000−−−−√, p+1.960.51000−−−−√]=[p−0.03, p+0.03]
NNπ=50%