Come testare la mediana di una popolazione?


9

Ho un campione di 250 unità. La distribuzione è asimmetrica. Voglio testare un'ipotesi che la mediana della popolazione sia diversa dalla 3.5, quindi penso che un test a un campione sarebbe appropriato. So che il test dei ranghi di Wilcoxon non è appropriato perché la distribuzione non è simmetrica. È opportuno utilizzare un test dei segni? In caso contrario, qualcuno può consigliare qualsiasi altro test?


3
Mi hai perso in prima linea, per diversi motivi. (1) Un campione non può avere una distribuzione gaussiana (ma può averne approssimativamente una). (2) Una caratteristica di tutte le distribuzioni gaussiane (e quindi delle approssimazioni ad esse) è la simmetria . Ti sei contraddetto. Descrivendo i tuoi dati in base ai tuoi termini, piuttosto che al gergo statistico, comunicherai meglio ciò che hai. Potresti anche spiegare, nel modo più semplice possibile, cosa vuoi veramente realizzare con i tuoi dati? Che tipo di informazioni deve fornire un "test di esempio basato sulla mediana"?
whuber

1
La mediana del campione è qualunque essa sia; non sarebbe necessario provarlo. Forse vuoi verificare se la mediana della popolazione (da cui si ottiene il campione) è uguale a ? In tal caso, è importante sapere come è stato sviluppato il valore di . È forse un riepilogo di alcuni altri set di dati? O è un numero predeterminato, come uno standard di qualità? 3.53.5
whuber

1
È un numero predeterminato
LeonRupnik

2
"La distribuzione è asimmetrica, quindi voglio verificare un'ipotesi se una mediana di una popolazione è diversa da 3,5 ..." - Perché l'asimmetria in un campione avrebbe un impatto su quale ipotesi fosse interessante? " Un test di segni è appropriato da usare? " - certo, ma (almeno nella forma originale) si basa sulla continuità - è necessario adattarlo se la variabile è discreta (non si dice in cosa consistono i dati di).
Glen_b

I dati sono continui
LeonRupnik

Risposte:


8

Sinossi

Il conteggio di dati superiori a ha una distribuzione binomiale con probabilità sconosciuta . Utilizzare questo per condurre un test binomiale di rispetto all'alternativa .3.5pp=1/2p1/2

Il resto di questo post spiega il modello sottostante e mostra come eseguire i calcoli. Fornisce Rcodice funzionante per eseguirli. Un resoconto esteso della teoria del test di ipotesi sottostante è fornito nella mia risposta a "Qual è il significato di valori p e valori t nei test statistici?" .

Il modello statistico

Supponendo che i valori siano ragionevolmente diversi (con pochi legami a ), quindi sotto la tua ipotesi nulla, qualsiasi valore campionato casualmente ha una probabilità di superare (poiché è caratterizzato come il valore medio della popolazione) . Supponendo che tutti e valori siano stati campionati in modo casuale e indipendente, il loro numero superiore a avrà quindi una distribuzione binomiale . Chiamiamo questo numero il "conteggio", .3.51/2=50%3.53.52503.5(250,1/2)k

D'altra parte, se la mediana della popolazione differisce da , la possibilità di un valore campionato a caso superiore a sarà diversa da . Questa è l'ipotesi alternativa.3.53.51/2

Trovare un test adatto

Il modo migliore per distinguere la situazione nulla dalle sue alternative è quello di esaminare i valori di che sono molto probabilmente sotto il valore null e meno probabili sotto le alternative. Questi sono i valori vicino a di , pari a . Pertanto, una regione critica per il test è costituita da valori relativamente lontani da : vicino a o vicino a . Ma quanto lontano devono essere per costituire una prova significativa del fatto che non è la mediana della popolazione?k1/225012512502501253.5

In dipende dal tuo standard di significatività: questa è chiamata dimensione del test , spesso chiamata . Sotto l'ipotesi nulla, ci dovrebbe essere vicino - ma non più di - una possibilità che sia nella regione critica.ααk

Normalmente, quando non abbiamo preconcetti su quale alternativa verrà applicata - una mediana maggiore o minore di - proviamo a costruire la regione critica in modo che ci sia metà di quella possibilità, , che sia basso e il l'altra metà, , che è alta. Poiché conosciamo la distribuzione di sotto l'ipotesi nulla, questa informazione è sufficiente per determinare la regione critica.3.5α/2kα/2kk

Tecnicamente, ci sono due modi comuni per eseguire il calcolo: calcolare le probabilità binomiali o approssimarle con una distribuzione normale.

Calcolo con probabilità binomiali

Utilizzare la funzione punto percentuale (quantile). In R, per esempio, questo si chiama qbinome sarebbe invocato come

alpha <- 0.05 # Test size
c(qbinom(alpha/2, 250, 1/2)-1, qbinom(1-alpha/2, 250, 1/2)+1)

L'output per èα=0.05

109 141

Significa che la regione critica comprende tutti i valori bassi di tra (e compreso) e , insieme a tutti i valori alti di tra (e compreso) e . Come controllo, possiamo chiedere di calcolare la possibilità che si trova in quella regione quando il valore nullo è vero:k0109k141250Rk

pbinom(109, 250, 1/2) + (1-pbinom(141-1, 250, 1/2))

L'output è , molto vicino a - ma non maggiore di-- stesso. Poiché la regione critica deve terminare con un numero intero, di solito non è possibile rendere questa dimensione effettiva del test esattamente uguale alla dimensione nominale del test , ma in questo caso i due valori sono davvero molto vicini.0.0497αα

Calcolo con l'approssimazione normale

La media di una distribuzione binomiale è e la sua varianza è , facendo la sua deviazione standard uguale a . Sostituiremo la distribuzione binomiale con una distribuzione normale. La distribuzione normale standard ha della sua probabilità inferiore a , calcolata dal comando(250,1/2)250×1/2=125250×1/2×(11/2)=250/4250/47.9α/2=0.05/21.95996R

qnorm(alpha/2)

Poiché le distribuzioni normali sono simmetriche, ha anche della sua probabilità maggiore di . Pertanto la regione critica è costituita da valori di che sono più di deviazioni standard da . Calcola queste soglie: equivalgono a . Il calcolo può essere eseguito in un colpo solo come+ 1,95996 k 1,95996 125 125 ± 7,9 × 1,96 109,5 , 140,50.05/2+1.95996k1.95996125125±7.9×1.96109.5,140.5

250*1/2 + sqrt(250*1/2*(1-1/2)) * qnorm(alpha/2) * c(1,-1)

Poiché deve essere un numero intero, vediamo che cadrà nella regione critica quando sarà o inferiore o o maggiore. Questa risposta è identica a quella ottenuta usando l'esatto calcolo binomiale. Questo in genere è il caso in cui è più vicino di rispetto a o , la dimensione del campione è da moderata a grande (decine o più) e non è molto piccola (qualche percento).109 141 p 1 / 2 0 1 αk109141p1/201α


Questo test, poiché non presuppone nulla sulla popolazione (tranne per il fatto che non ha molta probabilità focalizzata sulla sua mediana), non è potente come altri test che fanno ipotesi specifiche sulla popolazione. Se tuttavia il test rifiuta il valore nullo, non è necessario preoccuparsi della mancanza di energia. Altrimenti, devi fare alcuni delicati compromessi tra ciò che sei disposto ad assumere e ciò che sei in grado di concludere sulla popolazione.


2
Poiché questo è praticamente un esempio funzionante della tua risposta " significato di una p-value " piuttosto più astratta , non solo nello sposare la stessa filosofia ma nel modo in cui è strutturata la tua risposta, penso che dovresti collegarla ("Un esempio di come questo viene applicato nella pratica può essere trovato nella mia risposta a ... ") nella conclusione della tua risposta lì.
Silverfish

2
@ Argento Grazie; che davvero mi aveva attraversato la mente. Ho pensato di poter aspettare un po 'prima. Tra le altre cose, non sarei sorpreso se qualche membro della comunità intraprendente dovesse scavare un filo duplicato, che vorrei esaminare più da vicino. Dopotutto, questo è materiale di base: molte domande sono state poste sui test binomiali. L'unica affermazione che questa deve essere nuova è che è arrivato qui come bisogno di un test di una mediana - quindi all'inizio non era così ovviamente un test binomiale - e l'unica affermazione che la mia risposta deve essere degna di la lettura sta nel suo sforzo di spiegare ogni passo.
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.