Clopper-Pearson per non matematici


12

Mi chiedevo se qualcuno potesse spiegarmi l'intuizione al di là del Clopper-Pearson CI per le proporzioni.

Per quanto ne so, ogni elemento della configurazione include una variazione. Tuttavia, per le proporzioni, anche se la mia proporzione è 0 o 1 (0% o 100%), è possibile calcolare l'IC Clopper-Pearson. Ho provato a guardare le formule, e ho capito che ha qualcosa con i percentili della distribuzione binomiale e capisco che trovare l'IC comporta iterazioni, ma mi chiedevo se qualcuno potesse spiegare la logica e il razionale in "parole semplici", o con un minimo di matematica ?

Risposte:


22

Quando dici di essere abituato a intervalli di confidenza contenenti un'espressione per la varianza, stai pensando al caso gaussiano, in cui le informazioni sui due parametri che caratterizzano la popolazione - una la sua media e l'altra la sua varianza - sono riassunte dal campione media e varianza del campione. La media del campione stima la media della popolazione, ma la precisione con cui lo fa dipende dalla varianza della popolazione, stimata a sua volta dalla varianza del campione. La distribuzione binomiale, d'altra parte, ha solo un parametro - la probabilità di successo su ogni singolo processo— e tutte le informazioni fornite dal campione su questo parametro sono riassunte nel totale no. successi di così tante prove indipendenti. La varianza e la media della popolazione sono entrambe determinate da questo parametro.

È possibile ottenere un intervallo di confidenza Clopper – Pearson al 95% (diciamo) per il parametro funziona direttamente con la funzione di massa della probabilità binomiale. Supponiamo di osservare successi su prove. Il pmf èx nπxn

Pr(X=x)=(nx)πx(1π)nx

Aumenta fino a quando la probabilità di o meno successi scende al 2,5%: questo è il limite superiore. Diminuisci fino a quando la probabilità di o più successi scende al 2,5%: questo è il limite inferiore. (Ti suggerisco di provare effettivamente a farlo se non è chiaro dalla sua lettura.) Quello che stai facendo qui è trovare i valori di che se presi come un'ipotesi nulla porterebbe al suo (solo giusto) rifiuto da un test a due code con un livello di significatività del 5%. A lungo termine, i limiti calcolati in questo modo coprono il vero valore di , qualunque esso sia, almeno il 95% delle volte.πxπxππ


+1. Questo potrebbe meritare una domanda a sé stante, ma lo farò rapidamente qui: per una particolare applicazione vorrei ottenere una singola misura di incertezza (qualcosa che si comporta come un errore standard della media) per varie proporzioni. So che esiste una serie di procedure binomiali per la CI, incluso Clopper-Pearson. Avrebbe senso prendere una larghezza di tale IC come misura di incertezza? O forse larghezza / 1,96 / 2 per renderlo esattamente SEM nel limite gaussiano.
ameba dice di reintegrare Monica il

1
@amoeba: presumibilmente stai pensando a campioni di piccole dimensioni: (1) Probabilmente vorresti qualcosa come Blaker-Spjotvoll CI piuttosto che CI basati su un test della stessa area di coda. (2) La distribuzione della confidenza è piuttosto instabile, il che renderebbe la larghezza di ogni dato intervallo spiacevolmente sensibile alla copertura che stipuli.
Scortchi - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.