L'unico modo per conoscere la varianza della popolazione è misurare l'intera popolazione.
Tuttavia, misurare un'intera popolazione spesso non è fattibile; richiede risorse tra cui denaro, strumenti, personale e accesso. Per questo motivo campioniamo le popolazioni; che sta misurando un sottoinsieme della popolazione. Il processo di campionamento dovrebbe essere progettato con cura e con l'obiettivo di creare una popolazione campione rappresentativa della popolazione; dando due considerazioni chiave: dimensione del campione e tecnica di campionamento.
Esempio di giocattoli: desideri stimare la varianza di peso per la popolazione adulta della Svezia. Ci sono circa 9,5 milioni di svedesi, quindi non è probabile che tu possa uscire e misurarli tutti. Pertanto è necessario misurare una popolazione campione da cui è possibile stimare la vera varianza all'interno della popolazione.
Esci per assaggiare la popolazione svedese. Per fare questo, vai a trovarti nel centro di Stoccolma, e così accade proprio fuori dalla famosa catena di hamburger svedese fittizia Burger Kungen . In effetti, piove e fa freddo (deve essere estate), quindi ti trovi all'interno del ristorante. Qui pesa quattro persone.
È probabile che il tuo campione non rifletta molto bene la popolazione della Svezia. Quello che hai è un campione di persone a Stoccolma, che si trovano in un ristorante di hamburger. Questa è una tecnica di campionamento scadente perché è probabile che distorca il risultato non dando una rappresentazione equa della popolazione che si sta tentando di stimare. Inoltre, hai una piccola dimensione del campione, quindi hai un alto rischio di scegliere quattro persone che si trovano agli estremi della popolazione; o molto leggero o molto pesante. Se hai campionato 1000 persone, hai meno probabilità di causare un errore di campionamento; è molto meno probabile che scelga 1000 persone insolite piuttosto che sceglierne quattro insolite. Una dimensione del campione più grande ti darebbe almeno una stima più accurata della media e della varianza di peso tra i clienti di Burger Kungen.
L'istogramma illustra l'effetto della tecnica di campionamento, la distribuzione grigia potrebbe rappresentare la popolazione della Svezia che non mangia al Burger Kungen (media 85 kg), mentre il rosso potrebbe rappresentare la popolazione dei clienti del Burger Kungen (media 100 kg) e i trattini blu potrebbero essere le quattro persone che campionate. Una corretta tecnica di campionamento dovrebbe pesare equamente la popolazione, e in questo caso circa il 75% della popolazione, quindi il 75% dei campioni misurati, non dovrebbe essere cliente di Burger Kungen.
Questo è un grosso problema con molti sondaggi. Ad esempio, le persone che probabilmente risponderanno a sondaggi sulla soddisfazione dei clienti, o sondaggi d'opinione alle elezioni, tendono ad essere sproporzionatamente rappresentate da persone con visioni estreme; le persone con opinioni meno forti tendono ad essere più riservate nell'esprimerle.
Il punto del test di ipotesi è ( non sempre ), ad esempio, per verificare se due popolazioni differiscono l'una dall'altra. Ad esempio, i clienti di Burger Kungen pesano più degli svedesi che non mangiano al Burger Kungen? La capacità di testarlo con precisione dipende dalla corretta tecnica di campionamento e dalle dimensioni sufficienti del campione.
Il codice R per testare rende tutto ciò possibile:
df1 = data.frame(rnorm(9500000, 85, 15), sample(c("Y","N","N","N"), replace = T))
colnames(df1) = c("weight","customer")
df1$weight = ifelse(df1$customer == "Y", df1$weight + rnorm(length(df1$weight[df1$customer =="Y"]), 15, 2), df1$weight)
subsample = sample(df1$weight[df1$customer=="Y"], size = 4)
png(paste0(path,"SwedenWeight.png"), res =1000, width = 4, height = 4, units = "in")
par(mar=c(5,6,2,2))
hist(df1$weight[df1$customer=="N"], xlab = "Kilograms", col = rgb(0,0,0,0.5), main ="")
hist(df1$weight[df1$customer=="Y"], add = T, col = rgb(1,0,0,0.5))
axis(side = 1, at = c(subsample), labels = c("","","",""), tck = -0.03, col = "blue")
axis(side = 1, at = c(0,150), labels = c("",""), tck = -0)
dev.off()
t.test(df1$weight~df1$customer)
risultati:
> t.test(df1$weight~df1$customer)
Welch Two Sample t-test
data: df1$weight by df1$customer
t = -1327.7, df = 4042400, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-15.04688 -15.00252
sample estimates:
mean in group N mean in group Y
84.99555 100.02024