Intervallo di confidenza attorno al rapporto di due proporzioni


20

Ho due proporzioni (ad esempio, percentuale di clic (CTR) su un collegamento in un layout di controllo e CTR su un collegamento in un layout sperimentale) e voglio calcolare un intervallo di confidenza del 95% attorno al rapporto di queste proporzioni.

Come faccio a fare questo? So di poter usare il metodo delta per calcolare la varianza di questo rapporto, ma non sono sicuro di cosa fare oltre. Cosa devo usare come punto medio dell'intervallo di confidenza (il mio rapporto osservato o il rapporto atteso che è diverso) e quante deviazioni standard intorno a questo rapporto dovrei prendere?

Dovrei usare la varianza del metodo delta? (Non mi interessa davvero la varianza, solo un intervallo di confidenza.) Dovrei usare il Teorema di Fieller , usando il Caso 1 (dal momento che sto facendo le proporzioni, immagino di soddisfare il normale requisito di distribuzione)? Devo solo calcolare un campione bootstrap?


1
Hai un problema fondamentale: la maggior parte delle proporzioni ha una probabilità positiva di essere zero, da cui il rapporto (di proporzioni indipendenti) ha una probabilità positiva di essere indefinito. Ciò può presentare gravi difficoltà per i metodi approssimativi (come il metodo delta) e suggerisce che le approssimazioni normali dovrebbero essere viste più scetticamente e testate più rigorosamente del solito.
whuber

Joseph L. Fleiss, Bruce Levin, Myunghee Cho Paik: Metodi statistici per tassi e proporzioni [1] discute il rischio relativo, che è un quoziente di due tassi. Non ho il libro, quindi posso solo andare dall'indice del soggetto e dal sommario, ma forse la tua biblioteca ce l'ha. [1]: onlinelibrary.wiley.com/book/10.1002/0471445428
cbeleites supporti Monica

Sicuramente un bootstrap percentile sarebbe il metodo migliore?
Peter Ellis,

Risposte:


19

Il modo standard per farlo in epidemiologia (dove un rapporto di proporzioni è di solito indicato come un rapporto di rischio ) è prima di trasformare il rapporto in trasformazione, calcolare un intervallo di confidenza sulla scala del registro usando il metodo delta e ipotizzando una distribuzione normale, poi tornare indietro. Funziona meglio con campioni di dimensioni moderate rispetto all'utilizzo del metodo delta su scala non trasformata, anche se si comporterà comunque male se il numero di eventi in entrambi i gruppi è molto piccolo e fallisce completamente se non ci sono eventi in nessuno dei due gruppi.

Se ci sono e x 2 successi nei due gruppi fuori dei totali n 1 e n 2 , allora la stima ovvio per il rapporto delle proporzioni è θ = x 1 / n 1x1x2n1n2

θ^=x1/n1x2/n2.

Utilizzando il metodo delta e supponendo che i due gruppi sono indipendenti e i successi sono con distribuzione binomiale, si può dimostrare che Prendendo la radice quadrata di questo dà l'errore standard SE ( log θ ) . Supponendo che log θ sia normalmente distribuito, un intervallo di confidenza del 95% per il log θ

Var(logθ^)=1/x11/n1+1/x21/n2.
SE(logθ^)logθ^logθè Exponentiating questo dà un intervallo di confidenza 95% per il rapporto delle proporzioni θ come θ exp [ ± 1,96 SE ( log θ ) ] .
logθ^±1.96SE(logθ^).
θ
θ^exp[±1.96SE(logθ^)].

5
Funziona alla grande a condizione che e n 2 siano grandi (diverse centinaia o più) e n 1 p 1n1n2n1p1n2p210x2=0xi=ni1/2xi1nipini4ni

@whuber: "approccio simile alla correzione della continuità" - l'uso di 1/2 in particolare è un trucco comune? (A differenza di qualche altro piccolo pseudocount.) Il modo in cui lo hai formulato fa suonare 1/2 principio in qualche modo =) - vero?
Raegtin,

xini

Perché in questo caso la radice quadrata della varianza è un errore standard, non una deviazione standard?
Mikko

2
@onestop È implementato in qualsiasi pacchetto R?
Bogdan Vasilescu,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.