Il test


12

Ho appena letto in una rivista scientifica (molto popolare) piuttosto rispettata (il Primo Ministro tedesco, 02/2013, p.36) su un esperimento interessante (senza fonte, sfortunatamente). Ha attirato la mia attenzione perché intuitivamente dubitavo del significato del risultato, ma le informazioni fornite erano sufficienti per riprodurre i test statistici.

I ricercatori si sono chiesti se il raffreddore quando fa freddo aumenta le probabilità di prendere un raffreddore. Quindi hanno diviso casualmente un gruppo di 180 studenti in due gruppi. Un gruppo ha dovuto tenere i piedi in acqua fredda per 20 minuti. L'altro teneva le scarpe. Una specie di manipolazione divertente, penso, ma d'altra parte non sono un dottore e forse i dottori pensano divertente. Questioni etiche a parte.

Comunque, dopo 5 giorni, 13 degli studenti del gruppo di trattamento avevano il raffreddore, ma solo 5 nel gruppo che si tenevano le scarpe. Il rapporto di probabilità di questo esperimento è quindi di 2,87.

Data la dimensione del campione piuttosto piccola, ho iniziato a chiedermi se questa differenza potesse essere significativa. Quindi ho condotto due prove.

Innanzitutto un semplice test di uguaglianza di proporzioni usando l'approssimazione normale. Questo test ha con . La mia ipotesi è che questo è ciò che i ricercatori hanno testato. Questo è veramente significativo. Tuttavia, questo test z è valido solo in campioni di grandi dimensioni, se non sbaglio, a causa della normale approssimazione. Inoltre, i tassi di prevalenza sono piuttosto piccoli e mi chiedo se ciò potrebbe non influire sul tasso di copertura dell'intervallo di confidenza dell'effetto.p = 0.0468z=1.988p=0.0468

Quindi il mio secondo tentativo è stato un test di indipendenza del chi-quadrato, sia con la simulazione Monte-Carlo sia con il Chi-quadrato standard di Pearson. Qui trovo i valori di sia su .p=.082

Ora non è tutto così rassicurante sui risultati. Mi chiedevo se ci sono più opzioni per testare questi dati e quali sono i tuoi pensieri sui due test (in particolare i presupposti del primo, significativo, test)


Credo che tu abbia eseguito una correzione di continuità sulla statistica chi-quadrata di Pearson, che spiega la discrepanza nei valori di p.
Scortchi - Ripristina Monica

Risposte:


13

Userei un test di permutazione invece dell'approssimazione normale o del chi-quadrato. Il test di permutazione è esatto e potente, a seconda dei dati.

In questo caso, non possiamo calcolare tutte le permutazioni dei gruppi, ma possiamo generare molte permutazioni casuali dei dati e ottenere un valore abbastanza preciso:

group <- c(rep("A",90),rep("B",90))
n_a <- rep(0,100000)
for (i in 1:length(n_a)) {
   temp <- sample(group, size=18)
   n_a[i] <- sum(temp == "A")
}
> mean(n_a >= 13)
[1] 0.03904

che indicherebbe un valore p di 0,039.

TUTTAVIA, e questo è comunque un grosso problema, suppongo che il presupposto che i soggetti che hanno il raffreddore siano eventi indipendenti sia violato. Queste persone sono studenti, presumibilmente nella stessa scuola. Immagina che due di loro condividano una classe, un dormitorio, o qualche altra attività o una caffetteria (in una scuola con più mense); gli eventi "# 1 ottiene un raffreddore" e "# 2 ottiene un raffreddore" non sono indipendenti. Potrei immaginare che uno studente direbbe "iscriviamoci a questo esperimento!" al suo compagno di stanza o amici; Potevo immaginare che gli studenti venissero assunti dalle classi insegnate dai professori; Potrei immaginare molti modi in cui viene violata l'assunzione di indipendenza. Forse il documento, che non ho letto, affronta alcuni di questi, ma è difficile vedere come potrebbe affrontarli tutti,


Grazie @jbowman - inoltre, hai condotto un test unilaterale, vedo. Penso che questo abbia più senso dei test su due lati che ho usato. Se l'approssimazione normale viene eseguita su un lato, i valori di p sono 0,023 sopra. Mi piace il pensiero dell'indipendenza. Probabilmente anche gli studenti non erano isolati quando tenevano i piedi nell'acqua, quindi è anche un modo per trasmettere un raffreddore.
Tomka,

(+1) Ma vale la pena notare che non è necessario simulare: la distribuzione della statistica del test segue una distribuzione ipergeometrica sotto l'ipotesi nulla (e condizionamento sui totali marginali). Questo è il test esatto di Fisher.
Scortchi - Ripristina Monica

11

@jbowman ti ha dato una buona opzione. Ho pensato di poter fornire alcune informazioni riguardanti le vostre domande esplicite sull'opportunità del test -test rispetto al test . χ 2zχ2

z -test:

Vi sono due dubbi sull'opportunità di utilizzare -test, sia per quanto riguarda la correttezza della distribuzione del campionamento ipotizzato. Innanzitutto, -test utilizza la distribuzione normale anziché la distribuzione , il che implica che le deviazioni standard sono note senza errori di campionamento. In secondo luogo, la distribuzione del campionamento è continua, ma i dati sono discreti; poiché sono possibili solo determinate combinazioni di dati, sono possibili solo determinati valori statistici di prova realizzati che potrebbero non corrispondere alla distribuzione teorica del campionamento. (Discuto questo problema nel contesto di altri test qui: confronto e contrasto, valori p, livelli di significatività ed errore di tipo I. ) z tzzt

Consideriamo la prima preoccupazione in un contesto diverso. Se hai due gruppi con dati normalmente distribuiti e vuoi vedere se le medie sono equivalenti, devi calcolare sia le medie sia le deviazioni standard. Ora sappiamo che i mezzi sono soggetti a errori di campionamento, ecco perché dobbiamo fare il test piuttosto che dire semplicemente che questi due mezzi di campionamento non sono identici. Tuttavia, anche le nostre stime delle deviazioni standard devono essere soggette a errori di campionamento e dobbiamo tenerne conto in qualche modo. Quando lo facciamo, si scopre che la statistica del test (una sorta di differenza media in scala) è distribuita come . Se invece usassimo la distribuzione normale (cioèz ztz-test), significherebbe che stiamo assumendo che le nostre stime delle deviazioni standard siano senza errori - perfette. Allora perché lo -test potrebbe essere usato nel tuo caso? Il motivo è che i tuoi dati sono binomiali (ovvero, il numero di "successi" su un totale noto di "prove"), anziché normali. Nella distribuzione binomiale , la deviazione standard è una funzione della media, quindi una volta stimata la media non c'è più incertezza di cui preoccuparsi. Pertanto, la distribuzione normale può essere utilizzata come modello della distribuzione campionaria della statistica test. z

Sebbene l'utilizzo della distribuzione normale per comprendere il comportamento a lungo termine della statistica del test sia tecnicamente corretto, emerge un altro problema. Il problema è che la distribuzione normale è continua, ma poiché i tuoi dati sono discreti, non tutti i valori nella distribuzione teorica possono essere trovati nel tuo set di dati. (Anche in questo caso, discuto questo problema in considerevolmente più in dettaglio nella risposta precedente legato.) Fortunatamente, la corrispondenza tra i possibili esiti dei vostri dati e la distribuzione campionaria normale teorico migliora la tua più grande . Nel tuo caso, indipendentemente dalle reali probabilità sottostanti, potresti avere tutti i successi o meno di nessuno in ciascun gruppo. Ciò significa che il numero di combinazioni possibili è91 × 91 = 1 ,NN = 180 z91×91=1,729, che è molte possibilità. Con un piccolo set di dati, puoi davvero imbatterti in alcuni dei tipi di problemi che discuto nella mia risposta collegata, ma con , non devi preoccuparti troppo. Credo che -test sia stata una scelta valida per i ricercatori. N=180z

χ2 -test:

Ma per quanto riguarda il test ? Penso che sia anche una scelta valida, ma non sarebbe la mia prima scelta. (Consentitemi di notare che la seconda preoccupazione discussa sopra - una discrepanza tra dati discreti e una distribuzione di riferimento continua - si applica tanto al test che al test , quindi c'è nessun vantaggio qui.) Il problema conχ 2 z χ 2 χ 2 z zχ2χ2zχ2-test è che non presuppone che ci sia qualcosa di speciale nei totali di colonna rispetto ai totali di riga; entrambi sono trattati come se potessero essere stati altri possibili valori. Tuttavia, ciò non riflette accuratamente l'impostazione sperimentale. C'erano 180 persone e 90 erano assegnate a ciascun gruppo. L'unica cosa che potrebbe davvero variare tra ripetuti studi identici è il numero di persone che hanno preso il raffreddore in ciascun gruppo. Il test tratta erroneamente sia il numero di raffreddori che il numero di persone in ciascun gruppo come se potessero variare, ma il test fa il presupposto giusto. Ecco perché lo -test ha più potere qui. χ2zz

Per quello che vale, il test di permutazione suggerito da @jbowman rende giusto questo aspetto del tuo progetto e non soffre del problema di discrepanza discreta-continua. Pertanto, è l'opzione migliore. Ma ho pensato che ti sarebbe piaciuto sapere qualcosa in più su come i test - e si confrontano nella tua situazione. χ 2zχ2


Grazie @gung, apprezzo molto i tuoi sforzi. Rende le cose più chiare.
Tomka,

@gung sono confuso - chi quadrato e z di proporzione sono uguali o no? stats.stackexchange.com/questions/173415/…
Xavier Bourret Sicotte

@XavierBourretSicotte, lo z-test è spesso implementato sotto il cofano come test chi-quadrato, ad esempio R lo fa. Ancora spesso preferisco usare lo z-test perché le informazioni sono presentate in modo coerente con la comprensione che 1 variabile è una covariata e l'altra è la risposta.
gung - Ripristina Monica

1
(+1) @XavierBourretSicotte: Esistono due test z comunemente usati per la differenza tra due proporzioni: uno è un test del punteggio, equivalente al test chi-quadrato di Pearson (in cui la varianza nel denominatore viene calcolata con il migliore adattamento nullo); l'altro è un test di Wald (in cui la varianza nel denominatore viene calcolata alla stima della massima verosimiglianza della differenza nelle due proporzioni).
Scortchi - Ripristina Monica

@Scortchi grazie per aver chiarito questo! È la prima volta che mi imbatto in una spiegazione così esplicita della differenza: saresti in grado di collegarti a luoghi in cui sono spiegati i due approcci? Con le formule corrispondenti per la varianza?
Xavier Bourret Sicotte,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.