Come si decide la dimensione del campione quando si esegue il polling di una popolazione numerosa?


15

L'Australia sta attualmente organizzando le elezioni e comprensibilmente i media riportano quotidianamente nuovi risultati di sondaggi politici. In un paese di 22 milioni quale percentuale della popolazione dovrebbe essere campionata per ottenere un risultato statisticamente valido?

È possibile che l'uso di un campione troppo grande possa influenzare i risultati o la validità statistica aumenta monotonicamente con la dimensione del campione?

Risposte:


13

La dimensione del campione non dipende molto dalla dimensione della popolazione, il che è controintuitivo per molti.

La maggior parte delle società di sondaggi utilizza 400 o 1000 persone nei loro campioni.

C'è una ragione per questo:

Una dimensione del campione di 400 ti darà un intervallo di confidenza di +/- 5% 19 volte su 20 (95%)

Una dimensione del campione di 1000 ti darà un intervallo di confidenza di +/- 3% 19 volte su 20 (95%)

Quando si misura comunque una percentuale vicino al 50%.

Questo calcolatore non è male:

http://www.raosoft.com/samplesize.html


6
Ma nota che tutto questo si basa sul campionamento da una popolazione omogenea. Se si dispone di una popolazione eterogenea (ad esempio, proporzioni diverse per diversi sottogruppi, campionamento di parti rare delle popolazioni), tale stima della varianza non è così affidabile. Le stime che stai effettivamente calcolando qui sono (credo) per una popolazione rappresentata dal tuo campione. La domanda è: questa popolazione è quella a cui sei realmente interessato?
Probislogic,

9

Supponiamo che tu voglia sapere quale percentuale di persone voterebbe per un determinato candidato (diciamo, , nota che per definizione π è compreso tra 0 e 100). Campionate N votanti a caso per scoprire come voterebbero e il vostro sondaggio su questi N votanti vi dice che la percentuale è p . Quindi, si desidera stabilire un intervallo di confidenza per la percentuale reale.ππNNp

Se supponi che sia normalmente distribuito (un presupposto che può o non può essere giustificato a seconda di quanto è "grande" N ), il tuo intervallo di confidenza per π sarebbe della seguente forma: C I = [ p - k s d ( p ) , p + k s d ( p ) ] dove k è una costante che dipende dall'entità della fiducia desiderata (ovvero, 95% o 99% ecc.).pNπ

CI=[pksd(p),  p+ksd(p)]
k

Dal punto di vista del polling, la larghezza dell'intervallo di confidenza deve essere "bassa". Di solito, i sondaggisti lavorano con il margine di errore che è fondamentalmente metà dell'IC. In altre parole, . MoE=ksd(p)

Ecco come saremmo andati sul calcolo : Per definizione, p = Σ X i / N , dove, X i = 1 se elettore i voti per il candidato e 0 altrimenti.sd(p)p=Xi/NXi=1i0

Da allora, abbiamo campionato gli elettori a caso, potremmo supporre che sia una variabile casuale di Bernoulli. Pertanto, V a r ( P ) = V ( X iXi Quindi, sd(p)=

Var(P)=V(XiN)=V(Xi)N2=Nπ(1π)N2=π(1π)N.
Ora per stimare il margine di errore dobbiamo conoscereπche ovviamente non conosciamo. Ma un'ispezione del numeratore suggerisce che la stima "peggiore" persd(p)nel senso che otteniamo la deviazione standard "più grande" è quandoπ=0,5. Pertanto, la peggiore deviazione standard possibile è: sd(p)=
sd(p)=π(1π)N
πsd(p)π=0.5 Quindi, vedi che il margine di errore diminuisce esponenzialmente conNe quindi non hai davvero bisogno di campioni molto grandi per ridurre il margine di errore, o in altre paroleNnon deve essere molto grande per ottenere un intervallo di confidenza stretto .
sd(p)=0.50.5/N=0.5/N
NN

Ad esempio, per un intervallo di confidenza al 95% (ovvero, ) e N = 1000 , l'intervallo di confidenza è: [ p - 1,96 0,5k=1.96N=1000

[p1.960.51000,  p+1.960.51000]=[p0.03,  p+0.03]
NNπ=50%

2

Come generalizzazione approssimativa, ogni volta che campionerai una frazione delle persone in una popolazione, otterrai una risposta diversa rispetto a quando campionerai di nuovo lo stesso numero (ma probabilmente persone diverse).

Quindi, se vuoi scoprire quante persone in Australia hanno> = 30 anni e se la vera frazione (ci ha detto Dio) è stata esattamente di 0,4, e se chiediamo 100 persone, il numero medio che possiamo aspettarci di dire che sono> = 30 è 100 x 0,4 = 40 e la deviazione standard di quel numero è +/- sqrt (100 * 0,4 * 0,6) = sqrt (24) ~ 4,9 o 4,9% (distribuzione binomiale).

Poiché quella radice quadrata è lì dentro, quando la dimensione del campione aumenta di 100 volte, la deviazione standard diminuisce di 10 volte. Quindi, in generale, per ridurre l'incertezza di una misurazione come questa di un fattore 10, è necessario campionare 100 volte più persone. Quindi, se chiedi 100 x 100 = 10000 persone, la deviazione standard salirà a 49 o, in percentuale, fino allo 0,49%.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.