Spiegare i test a due code

Sto cercando vari modi per spiegare ai miei studenti (in un corso di statistica elementare) cos'è un test a due code e come viene calcolato il suo valore P.

Come spieghi ai tuoi studenti il test a due a una coda?

hypothesis-testing p-value teaching

— Tal Galili
fonte

Questa è un'ottima domanda e non vedo l'ora che tutti spieghino il valore p e il test a due code vs a una coda. Ho insegnato le statistiche ai colleghi chirurghi ortopedici e quindi ho cercato di mantenerlo il più basilare possibile poiché la maggior parte di loro non ha fatto matematica avanzata per 10-30 anni.

Il mio modo di spiegare il calcolo dei valori p e delle code

Comincio con una spiegazione del fatto che se crediamo di avere una moneta giusta sappiamo che dovrebbe finire in media con il 50% dei salti mortali ( ). Ora, se ti chiedi quale sia la probabilità di ottenere solo 2 code su 10 lanci con questa moneta giusta puoi calcolare quella probabilità come ho fatto nel grafico a barre. Dal grafico si può vedere che la probabilità di ottenere 8 lanci su 10 con una moneta giusta è di circa . $=H_0$ $\approx 4.4\%$

Dato che metteremmo in dubbio l'equità della moneta se avessimo 9 o 10 code, dobbiamo includere queste possibilità, la coda del test. Aggiungendo i valori otteniamo che la probabilità ora è un po 'più del di ottenere 2 code o meno. $\approx 5.5\%$

$5.4...\%+5.4...\% \approx 10.9\%$

Dato che noi in medicina di solito siamo interessati a studiare i fallimenti, dobbiamo includere il lato opposto della probabilità, anche se il nostro intento è fare del bene e introdurre un trattamento benefico.

Il mio grafico lanciando monete

Riflessioni leggermente fuori tema

Questo semplice esempio mostra anche quanto dipendiamo dall'ipotesi nulla per calcolare il valore p. Mi piace anche sottolineare la somiglianza tra la curva binomiale e la curva a campana. Quando si passa a 200 lanci si ottiene un modo naturale di spiegare perché la probabilità di ottenere esattamente 100 lanci inizia a non avere rilevanza. Gli intervalli di definizione di interesse sono una transizione naturale verso le funzioni di densità di densità / funzione di massa e le loro controparti cumulative.

Nella mia classe raccomando loro i video statistici dell'accademia di Khan e uso anche alcune delle sue spiegazioni per alcuni concetti. Arrivano anche a lanciare monete dove guardiamo nella casualità del lancio delle monete - la cosa che provo a mostrare è che la casualità è più casuale di quanto crediamo di solito ispirato da questo episodio di Radiolab .

Il codice

Di solito ho un grafico / diapositiva, il codice R che ho usato per creare il grafico:

library(graphics)

binom_plot_function <- function(x_max, my_title = FALSE, my_prob = .5, edges = 0, 
                                col=c("green", "gold", "red")){
  barplot(
    dbinom(0:x_max, x_max, my_prob)*100, 
    col=c(rep(col[1], edges), rep(col[2], x_max-2*edges+1), rep(col[3], edges)),
    #names=0:x_max,
    ylab="Probability %",
    xlab="Number of tails", names.arg=0:x_max)
  if (my_title != FALSE ){
    title(main=my_title)
  }
}

binom_plot_function(10, paste("Flipping coins", 10, "times"), edges=0, col=c("#449944", "gold", "#994444"))
binom_plot_function(10, edges=3, col=c(rgb(200/255, 0, 0), "gold", "gold"))
binom_plot_function(10, edges=3, col=c(rgb(200/255, 0, 0), "gold", rgb(200/255, 100/255, 100/255)))

— Max Gordon
fonte

Ottima risposta Max - e grazie per aver riconosciuto la non banalità della mia domanda :)

— Tal Galili,

+1 bella risposta, molto approfondita. Perdonami, ma ho intenzione di fare due chiacchiere. 1) il valore p è inteso come la probabilità che i dati siano estremi o più estremi dei tuoi sotto il valore null, quindi la tua risposta è giusta. Tuttavia, quando si utilizzano dati discreti come il lancio delle monete, ciò è inappropriatamente conservativo. È meglio usare quello che viene chiamato il "valore medio p", cioè 1/2 la probabilità di dati estremi come i tuoi + la probabilità che i dati siano più estremi. Una facile discussione di questi problemi è disponibile in Agresti (2007) 2.6.3. (cont.)

— gung - Ripristina Monica

2) Dichiari che la casualità è più casuale di quanto crediamo. Posso immaginare cosa potresti voler dire con questo (non ho avuto la possibilità di ascoltare l'episodio di Radiolab che colleghi, ma lo farò). Curiosamente, ho sempre detto agli studenti che la casualità è meno casuale di quanto si pensi. Mi riferisco qui alla percezione delle strisce (ad esempio, nel gioco d'azzardo). Le persone credono che gli eventi casuali dovrebbero alternarsi molto più degli eventi casuali in realtà, e di conseguenza credono di vedere delle strisce. Vedi Falk (1997) Senso della casualità Psych Rev 104,2. Ancora una volta, non sbagli: solo cibo per la riflessione.

— gung - Ripristina Monica

Grazie @gung per il tuo contributo. In realtà non ho sentito parlare del mid-pvalue - ha senso però. Non sono sicuro che sia qualcosa che vorrei menzionare quando insegno le statistiche di base poiché potrebbe dare la sensazione di perdere la sensazione pratica che provo a dare. Per quanto riguarda la casualità intendiamo esattamente la stessa cosa: quando vediamo un numero veramente casuale siamo ingannati nel pensare che ci sia uno schema. Penso di aver sentito sul podcast di Freakonomics la follia della previsione che ...

— Max Gordon,

... la mente umana ha imparato negli anni che non riuscire a rilevare un predatore è più costoso del pensare che probabilmente non è nulla. Mi piace quell'analogia e cerco di dire ai miei colleghi che uno dei motivi principali per usare le statistiche è aiutarci con questo difetto con cui siamo tutti nati.

— Max Gordon,

Supponiamo di voler testare l'ipotesi che l'altezza media degli uomini sia "5 ft 7 pollici". Seleziona un campione casuale di uomini, misura le loro altezze e calcola la media del campione. La tua ipotesi quindi è:

$H_0: \mu = 5\ \text{ft} \ 7 \ \text{inches}$

$H_A: \mu \ne 5\ \text{ft} \ 7 \ \text{inches}$

Nella situazione precedente si esegue un test a due code poiché si rifiuta il valore null se la media del campione è troppo bassa o troppo alta.

In questo caso, il valore p rappresenta la probabilità di realizzare una media campionaria almeno altrettanto estrema come quella che abbiamo effettivamente ottenuto supponendo che il nulla sia effettivamente vero. Pertanto, se si osserva che la media del campione è "5 ft 8 pollici", il valore p rappresenterà la probabilità che osserveremo altezze superiori a "5 ft 8 pollici" o altezze inferiori a "5 ft 6 pollici" a condizione che il valore null è vero.

Se d'altra parte la tua alternativa è stata inquadrata in questo modo:

$H_A: \mu > 5\ \text{ft} \ 7 \ \text{inches}$

Nella situazione sopra avresti un test con una coda sul lato destro. Il motivo è che preferiresti rifiutare il null a favore dell'alternativa solo se la media del campione è estremamente alta.

L'interpretazione del valore p rimane invariata con la leggera sfumatura che stiamo ora parlando della probabilità di realizzare una media campionaria che è maggiore di quella che abbiamo effettivamente ottenuto. Pertanto, se osservare il campione significa essere "5 ft 8 pollici", il valore p rappresenterà la probabilità che osserveremo altezze superiori a "5 ft 8 pollici" purché il valore nullo sia vero.

— Varty
fonte

In precedenza, per il tuo secondo

H_{A}

$H_A$ il null dovrebbe leggere

H_{0} : μ \leq 5 ft 7 inches

$H_0:\, \mu\le 5\ \text{ft}\ 7\ \text{inches}$ no

H_{0} : μ = 5 ft 7 inches

$H_0:\, \mu = 5\ \text{ft}\ 7\ \text{inches}$ . Vedi uno dei commenti di @ whuber a questa domanda, Le ipotesi nulle e alternative devono essere esaustive o no? .

— chl

@chl sono d'accordo. Tuttavia, per una persona che viene appena introdotta alle idee statistiche, riscrivere il nulla per un test a una coda può essere una distrazione quando l'attenzione è focalizzata su come e perché le cose cambiano rispetto all'interpretazione del valore p.

— Varty,

Giusto. Vale la pena menzionarlo, anche a scopo di insegnamento.

— chl