La deviazione standard è applicabile qui come in qualsiasi altro luogo: fornisce informazioni utili sulla dispersione dei dati. In particolare, l'sd diviso per la radice quadrata della dimensione del campione è un errore standard: stima la dispersione della distribuzione campionaria della media. Calcoliamo:
3.2%/10000−−−−−√=0.032%=0.00032.
È minuscolo , molto più piccolo della precisione che cerchi.±0.50%
Sebbene i dati non siano distribuiti normalmente, la media del campione è estremamente vicina alla distribuzione normale poiché le dimensioni del campione sono così grandi. Ecco, ad esempio, un istogramma di un campione con le stesse caratteristiche del tuo e, alla sua destra, l'istogramma dei mezzi di un migliaio di campioni supplementari della stessa popolazione.

Sembra molto vicino alla normalità, no?
Pertanto, anche se sembra che tu stia eseguendo il bootstrap correttamente, il bootstrap non è necessario: un intervallo di confidenza simmetrico per la media si ottiene, come al solito, moltiplicando l'errore standard per un appropriato percentile della distribuzione normale standard (a con spirito, ) e spostando quella distanza su entrambi i lati della media. Nel tuo caso, , quindi l' intervallo di confidenza del è100−α%Z1−α/200Z1−α/200=2.575899%
(0.977−2.5758(0.032)/10000−−−−−√, 0.977+2.5758(0.032)/10000−−−−−√)=(97.62%,97.78%).
È possibile trovare una dimensione del campione sufficiente invertendo questa relazione per risolvere la dimensione del campione. Qui ci dice che hai bisogno di una dimensione del campione in giro
(3.2%/(0.5%/Z1−α/200))2≈272.
Questo è abbastanza piccolo che potremmo voler ricontrollare la conclusione che la distribuzione campionaria della media è normale. Ho estratto un campione di dalla mia popolazione e ho avviato la sua media (per iterazioni):2729999

Abbastanza sicuro, sembra normale. In effetti, l'intervallo di confidenza avviato da boot è quasi identico all'IC della teoria normale di .(97.16%,98.21%)(97.19%,98.24%)
Come mostrano questi esempi, la dimensione assoluta del campione determina l'accuratezza delle stime piuttosto che la proporzione della dimensione della popolazione. (Un esempio estremo ma intuitivo è che una singola goccia di acqua di mare può fornire una stima accurata della concentrazione di sale nell'oceano, anche se quella goccia è una frazione così piccola di tutta l'acqua di mare.) Per i tuoi scopi dichiarati, ottenere un campione di (che richiede oltre volte più lavoro di un campione di ) è eccessivo.1000036272
Rsegue il codice per eseguire queste analisi e tracciare questi grafici. da una popolazione con una distribuzione Beta con una media di e una SD di .0.9770.032
set.seed(17)
#
# Study a sample of 10,000.
#
Sample <- rbeta(10^4, 20.4626, 0.4817)
hist(Sample)
hist(replicate(10^3, mean(rbeta(10^4, 20.4626, 0.4817))),xlab="%",main="1000 Sample Means")
#
# Analyze a sample designed to achieve a CI of width 1%.
#
(n.sample <- ceiling((0.032 / (0.005 / qnorm(1-0.005)))^2))
Sample <- rbeta(n.sample, 20.4626, 0.4817)
cat(round(mean(Sample), 3), round(sd(Sample), 3)) # Sample statistics
se.mean <- sd(Sample) / sqrt(length(Sample)) # Standard error of the mean
cat("CL: ", round(mean(Sample) + qnorm(0.005)*c(1,-1)*se.mean, 5)) # Normal CI
#
# Compare the bootstrapped CI of this sample.
#
Bootstrapped.means <- replicate(9999, mean(sample(Sample, length(Sample), replace=TRUE)))
hist(Bootstrapped.means)
cat("Bootstrap CL:", round(quantile(Bootstrapped.means, c(0.005, 1-0.005)), 5))