Confronto dei tassi di incidenza


9

Voglio confrontare il tasso di incidenza tra due gruppi (uno senza malattia e uno con).

Stavo programmando di calcolare il rapporto del tasso di incidenza (IRR), ovvero il gruppo del tasso di incidenza B / il gruppo del tasso di incidenza A, e quindi testare se questo tasso è uguale a 1, e infine calcolare gli intervalli di IC al 95% per l'IRR.

Ho trovato un metodo per calcolare l'IC al 95% in un libro (Rosner's Fundamentals of Biostatistics ):

exp[log(IRR)±1.96(1/a1)+(1/a2)]

dove e sono il numero di eventi. Ma questa approssimazione è valida solo per campioni di dimensioni sufficientemente grandi e penso che il numero di eventi che ho sia troppo piccolo (forse per il confronto totale va bene).a 2a1a2

Quindi penso che dovrei usare un altro metodo.

Sto usando R e il pacchetto esatta e ho scoperto che potrei forse usare poisson.test(). Ma questa funzione ha 3 metodi per definire i valori p bilaterali: centrale, minlike e blaker.

Quindi le mie domande sono:

  1. È corretto confrontare due rapporti del tasso di incidenza usando un test per confrontare i tassi di poisson?

  2. Quando si utilizza la funzione poisson.test in R dal pacchetto correctci quale metodo è il migliore?

La vignetta di esatta dice:

centrale: è 2 volte il minimo dei valori p unilaterali delimitati da 1. Il nome "centrale" è motivato dagli intervalli di inversione associati che sono intervalli centrali, ovvero garantiscono che il parametro vero abbia meno di probabilità di essere inferiore (maggiore) della coda inferiore (superiore) dell'intervallo di confidenza del 100 (1- )%. Questo è chiamato TST (il doppio del metodo della coda più piccola) di Hirji (2006).αα/2α

minlike: è la somma delle probabilità di esiti con probabilità inferiori o uguali alla probabilità osservata. Questo è chiamato il metodo PB (basato sulla probabilità) da Hirji (2006).

blaker: combina la probabilità della coda osservata più piccola con la probabilità più piccola della coda opposta che non supera la probabilità della coda osservata. Il nome "blaker" è motivato da Blaker (2000) che studia in modo completo il metodo associato per gli intervalli di confidenza. Questo è chiamato il metodo CT (coda combinata) di Hirji (2006).

I miei dati sono:

Group A: 
Age group 1: 3 cases    in 10459 person yrs.   Incidence rate: 0.29 
Age group 2: 7 cases    in 2279 person yrs.    Incidence rate: 3.07
Age group 3: 4 cases    in 1990 person yrs.    Incidence rate: 2.01
Age group 4: 9 cases    in 1618 person yrs.    Incidence rate: 5.56
Age group 5: 11 cases   in 1357 person yrs.    Incidence rate: 8.11
Age group 6: 11 cases   in 1090 person yrs.    Incidence rate: 10.09
Age group 7: 9 cases    in 819 person yrs.     Incidence rate: 10.99
  Total:    54 cases in 19612 person yrs.      Incidence rate: 2.75

Group B: 
Age group 1: 3 cases    in 3088 person yrs.   Incidence rate: 0.97 
Age group 2: 1 cases    in 707 person yrs.    Incidence rate: 1.41
Age group 3: 2 cases    in 630 person yrs.    Incidence rate: 3.17
Age group 4: 6 cases    in 441 person yrs.    Incidence rate: 13.59
Age group 5: 10 cases   in 365 person yrs.    Incidence rate: 27.4
Age group 6: 6 cases   in 249 person yrs.    Incidence rate: 24.06
Age group 7: 0 cases    in 116 person yrs.     Incidence rate: 0
  Total:    28 cases in 5597 person yrs.      Incidence rate: 5.0

Risposte:


2

Un paio di pensieri:

In primo luogo, il confronto suggerito - il rapporto del tasso di incidenti tra A e B - attualmente non è condizionato su nessuna covariata. Ciò significa che il numero di eventi è 54 per il gruppo A e 28 per il gruppo B. Questo è più che sufficiente per utilizzare i soliti metodi di intervallo di confidenza basati su campioni di grandi dimensioni.

In secondo luogo, anche se hai intenzione di adattarti all'effetto dell'età, piuttosto che calcolare il rapporto per ciascun gruppo, potresti essere meglio servito usando un approccio di regressione. Generalmente, se ti stai stratificando per molti livelli di una variabile, diventa piuttosto ingombrante rispetto a un'equazione di regressione, che ti darebbe il rapporto tra i tassi di A e B controllando per Età. Credo che gli approcci standard continueranno a funzionare per le dimensioni del campione, anche se se sei preoccupato, potresti usare qualcosa come glmperm .


1

Il tasso di incidenza di ciascun gruppo nei tuoi dati è solo la media di una somma di variabili indipendenti di Bernoulli (0/1) - ogni paziente ha la propria variabile che riceve un valore di 0 o 1, li sommi e prendi la media, che è il tasso di incidenza.

I campioni di grandi dimensioni (e il tuo campione è grande), la media verrà distribuita normalmente, quindi puoi utilizzare un semplice test z per verificare se le due velocità sono diverse o meno.

In R, dai un'occhiata a prop.test: http://stat.ethz.ch/R-manual/R-patched/library/stats/html/prop.test.html

Se desideri sfruttare appieno i dati, prova a vedere se la distribuzione dei tassi di incidenza è diversa tra il gruppo A e B. Per questo, un test di indipendenza potrebbe fare il trucco, come un chi-quadrato di un G -test: http://udel.edu/~mcdonald/statchiind.html


0

L'unico modo per essere sicuri che il campione sia abbastanza grande (o come direbbe Charlie Geyer - che tu sia effettivamente nella terra dell'astoptopia ) è fare molta simulazione Monte-Carlo o come EpiGard ha suggerito di usare qualcosa come glmperm.

Per quanto riguarda quale metodo sia il migliore in esatto, non c'è di meglio qui - o come diceva Fisher

Meglio per cosa?

Michael Fay fornisce alcuni chiarimenti qui

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.