Sinossi
Il conteggio di dati superiori a ha una distribuzione binomiale con probabilità sconosciuta . Utilizzare questo per condurre un test binomiale di rispetto all'alternativa .3.5pp=1/2p≠1/2
Il resto di questo post spiega il modello sottostante e mostra come eseguire i calcoli. Fornisce R
codice funzionante per eseguirli. Un resoconto esteso della teoria del test di ipotesi sottostante è fornito nella mia risposta a "Qual è il significato di valori p e valori t nei test statistici?" .
Il modello statistico
Supponendo che i valori siano ragionevolmente diversi (con pochi legami a ), quindi sotto la tua ipotesi nulla, qualsiasi valore campionato casualmente ha una probabilità di superare (poiché è caratterizzato come il valore medio della popolazione) . Supponendo che tutti e valori siano stati campionati in modo casuale e indipendente, il loro numero superiore a avrà quindi una distribuzione binomiale . Chiamiamo questo numero il "conteggio", .3.51/2=50%3.53.52503.5(250,1/2)k
D'altra parte, se la mediana della popolazione differisce da , la possibilità di un valore campionato a caso superiore a sarà diversa da . Questa è l'ipotesi alternativa.3.53.51/2
Trovare un test adatto
Il modo migliore per distinguere la situazione nulla dalle sue alternative è quello di esaminare i valori di che sono molto probabilmente sotto il valore null e meno probabili sotto le alternative. Questi sono i valori vicino a di , pari a . Pertanto, una regione critica per il test è costituita da valori relativamente lontani da : vicino a o vicino a . Ma quanto lontano devono essere per costituire una prova significativa del fatto che non è la mediana della popolazione?k1/225012512502501253.5
In dipende dal tuo standard di significatività: questa è chiamata dimensione del test , spesso chiamata . Sotto l'ipotesi nulla, ci dovrebbe essere vicino - ma non più di - una possibilità che sia nella regione critica.ααk
Normalmente, quando non abbiamo preconcetti su quale alternativa verrà applicata - una mediana maggiore o minore di - proviamo a costruire la regione critica in modo che ci sia metà di quella possibilità, , che sia basso e il l'altra metà, , che è alta. Poiché conosciamo la distribuzione di sotto l'ipotesi nulla, questa informazione è sufficiente per determinare la regione critica.3.5α/2kα/2kk
Tecnicamente, ci sono due modi comuni per eseguire il calcolo: calcolare le probabilità binomiali o approssimarle con una distribuzione normale.
Calcolo con probabilità binomiali
Utilizzare la funzione punto percentuale (quantile). In R
, per esempio, questo si chiama qbinom
e sarebbe invocato come
alpha <- 0.05 # Test size
c(qbinom(alpha/2, 250, 1/2)-1, qbinom(1-alpha/2, 250, 1/2)+1)
L'output per èα=0.05
109 141
Significa che la regione critica comprende tutti i valori bassi di tra (e compreso) e , insieme a tutti i valori alti di tra (e compreso) e . Come controllo, possiamo chiedere di calcolare la possibilità che si trova in quella regione quando il valore nullo è vero:k0109k141250R
k
pbinom(109, 250, 1/2) + (1-pbinom(141-1, 250, 1/2))
L'output è , molto vicino a - ma non maggiore di-- stesso. Poiché la regione critica deve terminare con un numero intero, di solito non è possibile rendere questa dimensione effettiva del test esattamente uguale alla dimensione nominale del test , ma in questo caso i due valori sono davvero molto vicini.0.0497αα
Calcolo con l'approssimazione normale
La media di una distribuzione binomiale è e la sua varianza è , facendo la sua deviazione standard uguale a . Sostituiremo la distribuzione binomiale con una distribuzione normale. La distribuzione normale standard ha della sua probabilità inferiore a , calcolata dal comando(250,1/2)250×1/2=125250×1/2×(1−1/2)=250/4250/4−−−−−√≈7.9α/2=0.05/2−1.95996R
qnorm(alpha/2)
Poiché le distribuzioni normali sono simmetriche, ha anche della sua probabilità maggiore di . Pertanto la regione critica è costituita da valori di che sono più di deviazioni standard da . Calcola queste soglie: equivalgono a . Il calcolo può essere eseguito in un colpo solo come+ 1,95996 k 1,95996 125 125 ± 7,9 × 1,96 ≈ 109,5 , 140,50.05/2+1.95996k1.95996125125±7.9×1.96≈109.5,140.5
250*1/2 + sqrt(250*1/2*(1-1/2)) * qnorm(alpha/2) * c(1,-1)
Poiché deve essere un numero intero, vediamo che cadrà nella regione critica quando sarà o inferiore o o maggiore. Questa risposta è identica a quella ottenuta usando l'esatto calcolo binomiale. Questo in genere è il caso in cui è più vicino di rispetto a o , la dimensione del campione è da moderata a grande (decine o più) e non è molto piccola (qualche percento).109 141 p 1 / 2 0 1 αk109141p1/201α
Questo test, poiché non presuppone nulla sulla popolazione (tranne per il fatto che non ha molta probabilità focalizzata sulla sua mediana), non è potente come altri test che fanno ipotesi specifiche sulla popolazione. Se tuttavia il test rifiuta il valore nullo, non è necessario preoccuparsi della mancanza di energia. Altrimenti, devi fare alcuni delicati compromessi tra ciò che sei disposto ad assumere e ciò che sei in grado di concludere sulla popolazione.