Sul test esatto di Fisher: quale test sarebbe stato appropriato se la signora non avesse saputo il numero di tazze da latte?


18

Nel famoso esperimento di degustazione di tè di RA Fisher, la signora viene informata di quante tazze di latte / tè-primo ci sono (4 per ciascuna su 8 tazze). Ciò rispetta il presupposto totale marginale fisso del test esatto di Fisher.

Stavo immaginando di fare questo test con il mio amico, ma il pensiero mi ha colpito. Se la signora sa davvero la differenza tra le tazze da latte e da tè, dovrebbe essere in grado di capire i totali marginali delle tazze da latte e tè e quali sono.

Quindi ecco la domanda: quale test avrebbe potuto essere usato se RA Fisher non avesse informato la signora del numero totale di tazze da latte e da tè?


4
Alcuni sosterrebbero che anche se il secondo margine non è fissato in base alla progettazione, contiene poche informazioni sulla capacità della donna di discriminare (cioè è approssimativamente accessoria) e dovrebbe essere condizionato. L'esatto test incondizionato (inizialmente proposto da Barnard penso) è più complicato perché devi calcolare il valore p massimo su tutti i possibili valori di un parametro di disturbo.
Scortchi - Ripristina Monica

4
In realtà il test di Barnard ha una pagina di Wikipedia.
Scortchi - Ripristina Monica

@Scortchi che altro c'è da dire? Non aggiungerei nulla (né riuscirò a dirlo in modo così chiaro e conciso). Attraverso i tuoi due commenti penso che tu abbia una buona risposta lì.
Glen_b -Restate Monica

1
C'è qualche discussione che vale la pena esaminare (sia su carta che su argomenti di discussione) in Yates, F. (1984) "Test di significatività per 2 × 2 tavoli di emergenza", Journal of the Royal Statistical Society. Serie A (Generale) , Vol. 147, n. 3, pagg. 426-463.
Glen_b -Restate Monica

1
Solo in media, oltre 4 tazze di tè con latte e 4 senza, possiamo dire che ha una probabilità di 121212

Risposte:


16

Alcuni sosterrebbero che anche se il secondo margine non è fissato in base alla progettazione, contiene poche informazioni sulla capacità della donna di discriminare (cioè è approssimativamente accessoria) e dovrebbe essere condizionato. L'esatto test incondizionato (proposto per la prima volta da Barnard ) è più complicato perché devi calcolare il valore p massimo su tutti i possibili valori di un parametro di disturbo, vale a dire la probabilità comune di Bernoulli sotto l'ipotesi nulla. Più recentemente, è stato proposto di massimizzare il valore di p in un intervallo di confidenza per il parametro di disturbo: vedere Berger (1996), "Test più potenti dai valori di intervallo di confidenza p", The American Statistician , 50 , 4; test precisi con le dimensioni corrette possono essere costruiti usando questa idea.

Fisher's Exact Test nasce anche come test di randomizzazione, nel senso di Edgington: un'assegnazione casuale dei trattamenti sperimentali consente di distribuire la statistica test sulle permutazioni di questi incarichi per testare l'ipotesi nulla. In questo approccio le determinazioni della signora sono considerate fisse (e i totali marginali delle tazze da latte e da tè sono ovviamente conservati per permutazione).


Può Barnard::barnardw.test()essere usato qui? Qual è la differenza nella complessità computazionale nella pratica?
krlmlr,

Non ho familiarità con quel pacchetto, ma la pagina di aiuto che colleghi ai riferimenti esattamente al test di cui stavo parlando. Vedi anche Exact. Per quanto riguarda la complessità computazionale, non lo so - dipenderà dall'algoritmo di massimizzazione utilizzato.
Scortchi - Ripristina Monica

2

Oggi ho letto i primi capitoli di "The Design of Experiments" di RA Fisher, e uno dei paragrafi mi ha fatto capire il difetto fondamentale della mia domanda.

Cioè, anche se la signora può davvero dire la differenza tra le tazze da latte e da tè , non posso mai dimostrare di avere quell'abilità "con una quantità limitata di sperimentazione". Per questo motivo, come sperimentatore, dovrei partire dal presupposto che lei non ha un'abilità (ipotesi nulla) e provare a disapprovarla. E il progetto dell'esperimento originale (test esatto del pescatore) è una procedura sufficiente, efficiente e giustificabile per farlo.

Ecco il brano tratto da "The Design of Experiments" di RA Fisher:

Si potrebbe sostenere che se un esperimento può confutare l'ipotesi che il soggetto non possiede alcuna discriminazione sensoriale tra due diversi tipi di oggetto, deve quindi essere in grado di dimostrare l'ipotesi opposta, che può fare una tale discriminazione. Ma quest'ultima ipotesi, per quanto ragionevole o vera possa essere, non è ammissibile come ipotesi nulla da verificare mediante esperimento, poiché è inesatta. Se si affermasse che l'argomento non sarebbe mai sbagliato nei suoi giudizi, riteniamo di nuovo un'ipotesi esatta, ed è facile vedere che questa ipotesi potrebbe essere smentita da un singolo fallimento, ma non potrebbe mai essere dimostrata da una quantità finita di sperimentazione .


1

Il test di Barnard viene utilizzato quando il parametro di disturbo è sconosciuto sotto l'ipotesi nulla.

Tuttavia nel test di degustazione delle donne si potrebbe sostenere che il parametro di disturbo può essere impostato a 0,5 sotto l'ipotesi nulla (la donna non informata ha il 50% di probabilità di indovinare correttamente una tazza).

Quindi il numero di ipotesi corrette, sotto l'ipotesi nulla, diventa una distribuzione binomiale: indovinare 8 tazze con probabilità del 50% per ogni tazza.


In altre occasioni potresti non avere questa banale probabilità del 50% per l'ipotesi nulla. E senza margini fissi potresti non sapere quale dovrebbe essere quella probabilità. In tal caso è necessario il test di Barnard.


Anche se tu eseguissi il test di Barnard sul test del tè femminile, diventerebbe comunque del 50% (se il risultato è un'ipotesi corretta) poiché il parametro di disturbo con il valore p più alto è 0,5 e porterebbe al banale test binomiale ( in realtà è la combinazione di due test binomiali uno per le quattro prime tazze di latte e uno per le quattro prime tazze di tè).

> library(Barnard)
> barnard.test(4,0,0,4)

Barnard's Unconditional Test

           Treatment I Treatment II
Outcome I            4            0
Outcome II           0            4

Null hypothesis: Treatments have no effect on the outcomes
Score statistic = -2.82843
Nuisance parameter = 0.5 (One sided), 0.5 (Two sided)
P-value = 0.00390625 (One sided), 0.0078125 (Two sided)

> dbinom(8,8,0.5)
[1] 0.00390625

> dbinom(4,4,0.5)^2
[1] 0.00390625

Di seguito è riportato come andrebbe per un risultato più complicato (se non tutte le ipotesi sono corrette, ad esempio 2 contro 4), quindi il conteggio di ciò che è e ciò che non è estremo diventa un po 'più difficile

(Si noti inoltre che il test di Barnard utilizza, nel caso di un risultato di 4-2, un parametro di disturbo p = 0,686 che si potrebbe sostenere non corretto, il valore p per il 50% di probabilità di rispondere al "tè per primo" sarebbe 0,08203125. Questo diventa ancora più piccolo se si considera una regione diversa, invece quella basata sulla statistica di Wald, anche se definire la regione non è così facile )

out <- rep(0,1000)
for (k in 1:1000) {
  p <- k/1000
  ps <- matrix(rep(0,25),5)   # probability for outcome i,j
  ts <- matrix(rep(0,25),5)   # distance of outcome i,j (using wald statistic)
  for (i in 0:4) {
    for (j in 0:4) {
      ps[i+1,j+1]  <- dbinom(i,4,p)*dbinom(j,4,p)
      pt <- (i+j)/8
      p1 <- i/4
      p2 <- j/4
      ts[i+1,j+1] <- (p2-p1)/sqrt(pt*(1-pt)*(0.25+0.25))
    }
  } 
  cases <- ts < ts[2+1,4+1]
  cases[1,1] = TRUE
  cases[5,5] = TRUE
  ps
  out[k] <- 1-sum(ps[cases])
}

> max(out)
[1] 0.08926748
> barnard.test(4,2,0,2)

Barnard's Unconditional Test

           Treatment I Treatment II
Outcome I            4            2
Outcome II           0            2

Null hypothesis: Treatments have no effect on the outcomes
Score statistic = -1.63299
Nuisance parameter = 0.686 (One sided), 0.314 (Two sided)
P-value = 0.0892675 (One sided), 0.178535 (Two sided)
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.