Errore standard di un conteggio


14

Ho un set di dati di casi di incidenti per stagione di una malattia rara. Ad esempio, supponiamo che ci siano stati 180 casi in primavera, 90 in estate, 45 in autunno e 210 in inverno. Sto lottando per stabilire se sia appropriato allegare errori standard a questi numeri. Gli obiettivi della ricerca sono inferenziali, nel senso che stiamo cercando un modello stagionale nell'incidenza della malattia che potrebbe ripresentarsi in futuro. Pertanto, sembra intuitivamente che dovrebbe essere possibile allegare una misura di incertezza ai totali. Tuttavia, non sono sicuro di come si possa calcolare un errore standard in questo caso poiché si tratta di conteggi semplici piuttosto che, ad esempio, di medie o proporzioni.

Infine, la risposta dipenderà dal fatto che i dati rappresentino la popolazione di casi (ogni caso che si è mai verificato) o un campione casuale? Se non sbaglio, in genere non ha senso presentare errori standard con le statistiche sulla popolazione, poiché non vi è alcuna inferenza.


Il conteggio è solo una proporzione non normalizzata in modo da poter calcolare st. errore di proporzione e "non normalizzato" in unità di conteggio, se fa la differenza per te. Hai ragione quella st. l'errore è applicabile solo al campione. Nella popolazione, non ci sono errori.
ttnphns,

Risposte:


14

La popolazione è l'insieme (ipotetico) di tutte le persone a rischio di contrarre la malattia; di solito, è costituito da tutte le persone (o da alcuni sottogruppi di persone chiaramente identificabili) residenti nell'area di studio. È importante definire chiaramente questa popolazione, perché è l'obiettivo dello studio e di tutte le inferenze fatte dai dati.

Quando i casi della malattia sono indipendenti (il che potrebbe essere un'ipotesi ragionevole quando la malattia non è prontamente comunicata tra le persone e non è causata da condizioni ambientali locali) e sono rari, i conteggi dovrebbero seguire da vicino una distribuzione di Poisson . Per questa distribuzione, una buona stima della sua deviazione standard è la radice quadrata del conteggio .

(180,90,45,210)(13.4,9.5,6.7,14.5)evento, il numero effettivo di malattie osservate durante una stagione varierà da quel tasso vero. La radice quadrata del tasso vero (ma sconosciuto!) Quantifica la quantità di variazione che potrebbe verificarsi. Poiché i conteggi osservati dovrebbero essere vicini ai tassi reali, le loro radici quadrate dovrebbero essere proxy ragionevoli per le radici quadrate dei tassi reali. Questi proxy sono esattamente ciò che si intende per "errore standard".

1657714.577

9(20,10,5,23)(4.5,3.2,2.2,4.8)9(40,28.5,20,44)

Questo è quanto si può andare con questi dati limitati. Questi semplici calcoli hanno rivelato che:

  • Caratterizzare la popolazione è fondamentale,

  • La radice quadrata di un conteggio è un punto di partenza approssimativo per valutare il suo errore standard,

  • La radice quadrata deve essere moltiplicata (approssimativamente) per qualche fattore per riflettere la mancanza di indipendenza nei casi di malattia (e questo fattore può essere approssimativamente correlato alle dimensioni dei gruppi di malattie),

  • La variazione tra questi conteggi riflette principalmente la variazione del tasso di malattia nel tempo piuttosto che l'incertezza (circa l'intensità di Poisson sottostante).


1
Risposta molto ponderata e approfondita! Grazie mille.
passaggio

2

Non sto facendo il faceto quando chiedo "Errore standard di cosa?" Puoi prendere la media di queste quattro cifre e calcolare l'errore standard di quella media. Tale statistica, e un conseguente intervallo di confidenza, avrebbe senso se credessi di essere giustificato nel trattare quelle 4 stagioni come rappresentative di tutte le serie di 4 stagioni alle quali potresti generalizzare. Nella misura in cui sei così giustificato, i dati che hai sarebbero davvero un campione casuale della popolazione. Il campionamento da te menzionato comporterebbe un ulteriore livello di campionamento: potresti chiamarlo campionamento di cluster, dove ogni anno costituisce un cluster.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.