La popolazione è l'insieme (ipotetico) di tutte le persone a rischio di contrarre la malattia; di solito, è costituito da tutte le persone (o da alcuni sottogruppi di persone chiaramente identificabili) residenti nell'area di studio. È importante definire chiaramente questa popolazione, perché è l'obiettivo dello studio e di tutte le inferenze fatte dai dati.
Quando i casi della malattia sono indipendenti (il che potrebbe essere un'ipotesi ragionevole quando la malattia non è prontamente comunicata tra le persone e non è causata da condizioni ambientali locali) e sono rari, i conteggi dovrebbero seguire da vicino una distribuzione di Poisson . Per questa distribuzione, una buona stima della sua deviazione standard è la radice quadrata del conteggio .
( 180 , 90 , 45 , 210 )( 13.4 , 9.5 , 6.7 , 14.5 )evento, il numero effettivo di malattie osservate durante una stagione varierà da quel tasso vero. La radice quadrata del tasso vero (ma sconosciuto!) Quantifica la quantità di variazione che potrebbe verificarsi. Poiché i conteggi osservati dovrebbero essere vicini ai tassi reali, le loro radici quadrate dovrebbero essere proxy ragionevoli per le radici quadrate dei tassi reali. Questi proxy sono esattamente ciò che si intende per "errore standard".
1657714.577
9( 20 , 10 , 5 , 23 )( 4.5 , 3.2 , 2.2 , 4.8 )9( 40 , 28.5 , 20 , 44 )
Questo è quanto si può andare con questi dati limitati. Questi semplici calcoli hanno rivelato che:
Caratterizzare la popolazione è fondamentale,
La radice quadrata di un conteggio è un punto di partenza approssimativo per valutare il suo errore standard,
La radice quadrata deve essere moltiplicata (approssimativamente) per qualche fattore per riflettere la mancanza di indipendenza nei casi di malattia (e questo fattore può essere approssimativamente correlato alle dimensioni dei gruppi di malattie),
La variazione tra questi conteggi riflette principalmente la variazione del tasso di malattia nel tempo piuttosto che l'incertezza (circa l'intensità di Poisson sottostante).