Come spiegare i test di ipotesi per gli adolescenti in meno di 10 minuti?


18

Da più di un anno ho tenuto un'ora di lezione "un assaggio di statistiche". Ogni volta che capita di venire un gruppo diverso di ragazzi e do loro la lezione.

Il tema della lezione è che eseguiamo un esperimento in cui 10 bambini (a cui piace bere la coca-cola) ricevono due tazze (non contrassegnate), una con coca-cola e una con pepsi. Ai bambini viene chiesto di individuare, in base al gusto e all'olfatto, quale tazza contiene la bevanda alla coca-cola.

Devo quindi spiegare loro come decidere se i bambini stanno indovinando o se (o almeno, abbastanza) hanno davvero la capacità di assaggiare la differenza. 10 successi su 10 sono abbastanza buoni? che dire di 7 su 10?

Anche dopo aver tenuto questa classe decine di volte (in diverse varianti), ancora non sento di sapere come far passare il concetto in modo tale che la maggior parte della classe lo capisca.

Se hai qualche idea su come il concetto di test di ipotesi, ipotesi nulla, ipotesi alternativa, regioni di rifiuto, ecc. Possa essere spiegato in modo semplice (!) E intuitivo , mi piacerebbe sapere come.


1
A volte pensare al "perché" aiuta a capire meglio il "come", in modo da poter controllare stats.stackexchange.com/questions/6966/…
Tim

5
(+1) Immagino che dipende da quale sia la tua definizione di 10 minuti !
cardinale il

1
Qualche settimana fa ho fatto il mio tentativo di rispondere a questa domanda - o almeno a una di esse straordinariamente simile - su stats.stackexchange.com/a/130772 . Quella discussione non è un duplicato di questo?
whuber

1
@cardinale - Intendo letteralmente 10 minuti. Per questo tipo di argomento e per le persone senza background, questo è MOLTO breve tempo. --------------- Caro whuber - Ho adorato la tua risposta, ma sarebbe bello per gli studenti sapere qual è la probabilità e la relazione tra densità e area. Questi sono concetti insegnati agli studenti, ma non agli studenti delle scuole superiori. Non desidero che comprendano appieno i test di ipotesi, ma di mantenerne abbastanza in modo che possano averne un'idea nel prendere una decisione sul significato di ciascuna regione di rifiuto.
Tal Galili,

4
Grazie per il chiarimento, Tal. Sembri ancora indicare che l'altro thread è un duplicato della tua domanda, ma che non hai visto una risposta adeguata lì. Un buon modo per differenziare la tua domanda da quello sarebbe quello di fornire requisiti specifici sul livello dell'esposizione e su ciò che possiamo supporre che il pubblico sappia, proprio come hai iniziato a fare nel tuo commento.
whuber

Risposte:


10

Penso che dovresti iniziare chiedendo loro cosa pensano che significhi davvero dire a una persona che è in grado di dire la differenza tra coca-cola e pepsi. Cosa può fare una persona del genere che gli altri non possono fare?

La maggior parte di essi non avrà una tale definizione e non sarà in grado di produrne una se richiesta. Tuttavia, il significato di quella frase è ciò che ci dà la statistica, ed è ciò che puoi portare con la tua classe "gusto per le statistiche".

Uno dei punti della statistica è quello di dare una risposta esatta alla domanda: "cosa significa dire di qualcuno che è in grado di dire la differenza tra coca-cola e pepsi"

La risposta è: lui o lei è meglio di una macchina per indovinare classificare le tazze in un test alla cieca. La macchina delle supposizioni non può dire la differenza, indovina semplicemente tutto il tempo. La macchina delle congetture è un'invenzione utile per noi perché sappiamo che non ha la capacità. I risultati della macchina delle congetture sono utili perché mostrano cosa dovremmo aspettarci da qualcuno a cui manca la capacità per cui testiamo.

Per verificare se una persona è in grado di dire la differenza tra coca-cola e pepsi, è necessario confrontare le proprie classificazioni di tazze in un test alla cieca con la classificazione che farebbe una macchina per indovinare. Solo se è migliore della macchina che indovina, è in grado di dire la differenza.

In che modo, quindi, determinare se un risultato è migliore di un altro risultato? E se fossero quasi uguali?

Se due persone classificano un numero limitato di tazze, non è proprio corretto affermare che uno è migliore dell'altro se i risultati sono quasi gli stessi. Forse oggi il vincitore è stato fortunato e i risultati sarebbero stati annullati se la competizione fosse stata ripetuta domani?

Se vogliamo avere un risultato affidabile, non può basarci su un numero limitato di classificazioni, perché allora il caso può decidere il risultato. Ricorda, non devi essere perfetto per avere l'abilità, devi solo essere migliore della macchina delle congetture. In effetti, se il numero di classificazioni è troppo piccolo, nemmeno una persona che identifica sempre correttamente la coca-cola sarà in grado di dimostrare che è meglio della congettura. Ad esempio, se c'è solo una tazza da classificare, anche la macchina delle congetture avrà il 50% di possibilità di classificarsi completamente corretta. Ciò non va bene, perché ciò significa che nel 50% dei processi concluderemmo erroneamente che un buon identificatore di coca-cola non è migliore della congettura. Molto ingiusto.

Più tazze ci sono da classificare, maggiori sono le opportunità per rivelare l'incapacità della macchina indovinatrice e maggiori sono le opportunità per il buon identificatore della coca-cola di mettersi in mostra.

10 tazze potrebbero essere un buon punto di partenza. Quante risposte giuste deve avere un essere umano per dimostrare di essere migliore della macchina?

Chiedi loro cosa indovinerebbero.

Quindi lascia che usino la macchina e scopri quanto è buona, cioè lascia che tutti gli alunni generino una serie di dieci ipotesi, ad es. usando un dado o un generatore casuale sullo smartphone. Per essere pedagogici, dovresti preparare una serie di dieci risposte giuste, su cui valutare le ipotesi.

Registra tutti i risultati sulla lavagna. Stampa i risultati ordinati sulla lavagna. Spiega che un essere umano dovrebbe essere migliore del 95% di questi risultati prima che uno statistico riconosca la sua capacità di distinguere tra coca-cola e pepsi. Traccia la linea che separa i risultati peggiori del 95% dai primi 5%.

Quindi, lascia che alcuni alunni provino a classificare 10 tazze. Ormai gli alunni dovrebbero sapere quanti diritti devono avere per dimostrare di poter distinguere.

Tuttavia, tutto ciò non è fattibile in 10 minuti.


2
Grazie Hans. Mi piace la tua risposta per diversi motivi. 1) Perché porti sul tavolo una nuova idea "far competere i bambini con una macchina per indovinare". Ammetto che il pensiero mi aveva attraversato la mente, ma la tua risposta rafforza la mia opinione che ciò potrebbe funzionare meglio che farli competere con la distribuzione teorica dell'ipotesi nulla p = .5. 2) Perché capisci che non tutto ciò che proponi fosse realizzabile in 10 minuti :)
Tal Galili,

2
Grazie Tal. a) Penso che la macchina delle ipotesi sia molto più intuitiva della distribuzione teorica. b) Spero che tu possa risparmiare più di 10 minuti per il test delle ipotesi.
Hans Ekbrand,

Perché il 95%, ah ah?
Mark L. Stone,

2

Lavorare con la soda sembra divertente e il test per capire se gli adolescenti possono effettivamente capire la differenza tra le bibite ha senso una volta che si ha una ragionevole conoscenza del test delle ipotesi. Il problema potrebbe essere che questa domanda: "puoi davvero dire la differenza tra le bibite?" è complicato da molte altre cose nella mente degli adolescenti, come "chi è buono e chi è cattivo nel testare le bibite?", "c'è davvero qualche differenza tra le bibite?"

Non ho mai insegnato le statistiche degli adolescenti, ma ho sempre immaginato di usare un dado carico o una moneta distorta. Muori più interessante, ma statisticamente più stimolante. Con l'esempio della moneta, una moneta è o non è giusta. Non si può essere bravi a lanciare monete. Non si può decidere se si tratta di testa o croce.

Se lanciamo una moneta per chi vince $ 100, e viene fuori testa (tu vinci!), Potrei dire: "Ehi. Come faccio a sapere se quella moneta è giusta? Scommetto che hai truccato la concorrenza!". Dici "Oh sì? Dimostralo." La soluzione abbastanza ovvia è di girare la moneta più e più volte per vedere se esce più teste che code. Lo capovolgiamo e viene fuori di testa. "Ahha! Dico. Arrivederci! È di parte nei confronti delle teste!" E così via.

Non esistono buone monete di parte, ma esistono dadi di parte: puoi acquistarne una su Amazon. Puoi offrire agli studenti un premio se possono vincere un certo numero di tiri. Ma sai che vincerai. Saranno arrabbiati. Dici, OK, ti darò il premio se puoi provare che questo dado è distorto, con una sicurezza del 95%.

Quindi passare alla soda. Il premio potrebbe anche essere una festa della soda! "Ehi, mi chiedo se ragazzi saprete distinguere tra coca cola e pepsi ..."


6
" Non si può essere bravi a lanciare monete. " - Dopo aver visto Persi Diaconis capovolgere la testa a piacimento, penso che potrebbe esserci.
Glen_b -Restate Monica

ha. ora vado a cercare di diventare bravo!
tim.farkas,

1
Diaconis è uno statistico e un mago. Ci sono video che lo dimostrano (capovolgendo le teste quando vuole) su YouTube.
Glen_b -Restate Monica

Ciao Tim Porti dei bei punti, ma non rispondono direttamente alla mia domanda. Dato che i tuoi studenti hanno superato x 10 test correttamente (un test sta selezionando il marchio giusto, in base al gusto) - come puoi spiegare perché decidi che sono bravi / cattivi nel prendere quella decisione?
Tal Galili,

Ancora una volta puoi usare il lancio della moneta. Se fanno un singolo assaggio e lo fanno bene, non è molto convincente, dal momento che se lanci una moneta, dovrebbe essere "giusto" il 50% delle volte! se lo capisci due volte, la probabilità di ottenerlo per caso è la stessa che capovolgi due teste = .5 * .5 = .25. 3 volte di fila è .125, 4 è .0625, 5 è .0313. Devi scegliere il livello di fiducia che desideri. il 50% è abbastanza sicuro? che ne dici del 25%? R. Fisher afferma che il 95% è abbastanza buono, ed è quello che usano molti scienziati. Questo è tecnicamente chiamato test del segno. Vedi sotto.
tim.farkas,

2

Considera qualcuno che fa pratica di tiro con un fucile, che spara esplosioni di pallini nella direzione della canna.

Ipotesi nulla: sono un buon tiratore e il mio barilotto è perfettamente sul bersaglio. Non a sinistra, non a destra, ma direttamente. Il mio errore è 0.

Ipotesi alternativa: sono un cattivo tiratore e la mia canna è fuori bersaglio. Appena a sinistra o appena a destra del bersaglio. Il mio errore è e> 0 o e <0.

Poiché ogni misurazione ha un certo errore medio (cioè errore standard), una misurazione che dice "fuori bersaglio" è possibile, anche se sto sparando dritto. Non dovrò "colpire" il mio bersaglio (affatto, anche se ogni tiro è uno scoppio / diffusione) un certo numero di volte, prima che tu possa chiamarmi un cattivo tiratore e scegliere l'ipotesi alternativa.


1
Benvenuti nel CV. Potresti mettere in relazione le tue spiegazioni con il nullo e l'alternativa? Forse qualche discussione aggiuntiva potrebbe aiutare a motivarli. Ci sono anche alcuni null e alternative per cui questa spiegazione non sarebbe adatta, potresti aver bisogno di menzionare per quale tipo di ipotesi questa sarebbe una spiegazione adatta (es. Point-null, a due code)
Glen_b -Reinstate Monica

1

Supponiamo che i bambini non possano distinguere e decidere per caso. Quindi ogni bambino ha il 50% di probabilità di indovinarlo nel modo giusto. Quindi ti aspetti (valore atteso) che in questo caso, 5 bambini lo fanno bene e 5 bambini sbagliano. Naturalmente, come è per caso, è anche possibile che 6 bambini errino e 4 abbiano ragione, e così via. Sul lato opposto, anche se i bambini sanno distinguere, è possibile che uno di loro sbagli.

Intuitivamente, è chiaro che se i bambini indovinano per caso, è piuttosto improbabile che tutti i bambini diano la risposta corretta. In questo caso, si potrebbe piuttosto credere che i bambini possano davvero assaggiare la differenza tra i due drink. In altre parole, non prevediamo eventi improbabili da osservare. Quindi, se osservassimo un evento improbabile con lo scanario 50-50, crediamo piuttosto che questo scenario sia falso e che i bambini possano distinguere tra Coca-Cola e Pepsi.

αα0,00,098 milaαα=0.05

P(tutti i bambini lo indovinano)=0,00,098 milaP(solo un bambino confonde Coca Cola con Pepsi)=0,01,074 milaP(solo due bambini confondono)=0,05,468 mila

Questo è il momento in cui conduci l'esperimento. Fallo accuratamente con tutti e 10 gli alunni, anche se hai appena calcolato che potresti fermarti dopo il secondo errore. Quindi registra i risultati e conservali. Avrai bisogno dei risultati se vuoi spiegare loro meta-analisi.

(A proposito, l'esempio storico riguarda l'assaggio se il latte o il tè sono stati versati per primi nella tazza. La signora dell'assaggio del tè.)



0

I bambini che assaggiano l'esperimento di coca cola sono un buon esempio per introdurre test di ipotesi, come dimostrato dall'esperimento di degustazione di tè da donna. Tuttavia, valutare tali esperimenti non è molto intuitivo perché l'ipotesi nulla implica la distribuzione binomiale con p = 0,5 e non è semplice.

Nella mia solita introduzione al test delle ipotesi, provo a superare questo inconveniente usando solo il caso di tutti i successi nella distribuzione binomiale, la cui probabilità può essere calcolata come p ^ n anche da persone che non conoscono la probabilità binomiale.

Nel mio esempio preferito, mi piacciono le castagne arrostite e ne compro una manciata da un venditore ambulante. Li ottengo a un prezzo scontato perché provengono da una grande borsa in cui il 10% delle castagne ha un foro a vite senza fine - qui provo a chiarire che la borsa è stata ben miscelata in modo che la mia manciata di castagne sia un campione casuale di castagne nella confezione e la dichiarazione del venditore significa che ogni castagna ha una probabilità indipendente del 10% di avere un buco a vite.

Mentre comincio a godermi le mie castagne arrostite, le prendo una per una e le controllo per individuare eventuali buchi di vite senza fine prima di mangiarle.

Quando controllo la prima castagna, vedo un buco di vite senza fine e mi chiedo se il venditore mi abbia mentito - spiego qui che mi chiedo che stia impostando la mia ipotesi nulla p = 10% e la mia ipotesi alternativa p> 10%, e ho messo loro alla lavagna. Ho motivo di dubitare che p = 10% quando ne ricavo una castagna cattiva? Bene, il 10% delle persone che eseguono lo stesso esperimento otterrebbero lo stesso risultato, quindi posso pensare di aver avuto solo sfortuna.

Quindi prendo la seconda castagna e ha anche un buco a vite. Due su due hanno una probabilità dell'1% solo se il venditore non mi ha mentito. Avrei potuto avere una sfortuna, ma divento molto sospettoso riguardo al venditore.

Anche la terza castagna ha un buco a vite. Ottenere le tre castagne con i vermi su tre non sarebbe impossibile supponendo che il venditore sia giusto e p = 10%, ma sarebbe molto improbabile (probabilità = 0,1%). Pertanto ora ho un valido motivo per dubitare del lavoro del venditore e sollevo un reclamo e chiedo di essere rimborsato.

Naturalmente, questo tipo di test successivi presenta alcuni problemi teorici, ma non importa molto per mostrare l'idea di un test di ipotesi. In effetti, l'idea più importante che non è inclusa in questo esempio è che nei test di ipotesi calcoliamo la probabilità dei risultati che otteniamo o qualcosa di peggio - nel mio esempio questo è stato evitato semplicemente ottenendo il risultato peggiore possibile.

Ho usato questo esempio più volte con matricole all'università - che sono ancora tecnicamente adolescenti - ma penso che potrebbe funzionare bene anche con gli adolescenti più giovani.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.