Una finestra di dialogo tra un insegnante e uno studente riflessivo
Umilmente presentato nella convinzione che finora non sono stati utilizzati abbastanza pastelli in questo thread. Alla fine appare una breve sinossi illustrato.
Studente : cosa significa un valore p? Molte persone sembrano concordare sul fatto che "vedremo una media del campione maggiore o uguale a" una statistica o è "la probabilità di osservare questo risultato ... dato che l'ipotesi nulla è vera" o dove "la statistica del mio campione è ricaduto su una distribuzione [simulata] " e persino " sulla probabilità di osservare una statistica del test almeno grande quanto quella calcolata assumendo che l'ipotesi nulla sia vera " .
Insegnante : Compresi correttamente, tutte queste affermazioni sono corrette in molte circostanze.
Studente : Non vedo come la maggior parte di essi siano rilevanti. Non ci hai insegnato che dobbiamo dichiarare un'ipotesi nulla e un'ipotesi alternativa H A ? Come sono coinvolti in queste idee di "maggiore o uguale a" o "almeno altrettanto grande" o molto popolare "più estremo"?H0HA
Insegnante : Perché può sembrare complicato in generale, ci aiuterebbe a esplorare un esempio concreto?
Studente : certo. Ma per favore rendilo realistico ma semplice se puoi.
Insegnante : Questa teoria della verifica delle ipotesi è iniziata storicamente con la necessità degli astronomi di analizzare gli errori osservativi, quindi che ne dici di iniziare da lì. Un giorno stavo esaminando alcuni vecchi documenti in cui uno scienziato ha descritto i suoi sforzi per ridurre l'errore di misurazione nel suo apparato. Aveva preso molte misure di una stella in una posizione nota e ha registrato i loro spostamenti davanti o dietro quella posizione. Per visualizzare quegli spostamenti, tracciò un istogramma che - quando levigato un po '- assomigliava a questo.
Studente : Ricordo come funzionano gli istogrammi: l'asse verticale è etichettato "Densità" per ricordarmi che le frequenze relative delle misurazioni sono rappresentate dall'area piuttosto che dall'altezza.
Insegnante : Esatto. Un valore "insolito" o "estremo" sarebbe localizzato in una regione con un'area piuttosto piccola. Ecco un pastello. Pensi di poter colorare in una regione la cui area è solo un decimo del totale?
Studente : Sicuro; questo è facile. [Colori nella figura.]
Insegnante : Molto bene! A me sembra circa il 10% dell'area. Ricorda, tuttavia, che le uniche aree dell'istogramma che contano sono quelle tra le linee verticali: rappresentano la probabilità o la probabilità che lo spostamento si trovi tra quelle linee sull'asse orizzontale. Ciò significa che dovevi colorare fino in fondo e che sarebbe oltre la metà dell'area, no?
Studente : Oh, capisco. Fammi riprovare. Voglio colorare dove la curva è davvero bassa, no? È più basso alle due estremità. Devo colorare in una sola area o sarebbe giusto dividerlo in più parti?
Insegnante : l'utilizzo di più parti è un'idea intelligente. Dove sarebbero?
Studente (indicando): qui e qui. Poiché questo pastello non è molto nitido, ho usato una penna per mostrarti le linee che sto usando.
Insegnante : Molto carino! Lascia che ti racconti il resto della storia. Lo scienziato ha apportato alcuni miglioramenti al suo dispositivo e poi ha preso ulteriori misurazioni. Ha scritto che lo spostamento del primo era solo , che pensava fosse un buon segno, ma essendo uno scienziato attento ha proceduto a prendere più misurazioni come controllo. Sfortunatamente, quelle altre misurazioni vengono perse - il manoscritto si interrompe a questo punto - e tutto ciò che abbiamo è quel singolo numero, 0,1 .0.10.1
Studente : È un peccato. Ma non è molto meglio dell'ampia diffusione di spostamenti nella tua figura?
Maestro : Questa è la domanda a cui vorrei che tu rispondessi. Per cominciare, cosa dovremmo considerare come ?H0
Studente : Beh, uno scettico si chiederebbe se i miglioramenti apportati al dispositivo abbiano avuto alcun effetto. L'onere della prova è per lo scienziato: vorrebbe dimostrare che lo scettico è sbagliato. Questo mi fa pensare che l'ipotesi nulla sia un po 'brutta per lo scienziato: dice che tutte le nuove misurazioni - incluso il valore di che conosciamo - dovrebbero comportarsi come descritto dal primo istogramma. O forse anche peggio: potrebbero essere ancora più distesi.0.1
Insegnante : Dai, stai andando bene.
Studente : E quindi l'alternativa è che le nuove misurazioni sarebbero meno diffuse, giusto?
Insegnante : Molto bene! Potresti farmi un quadro di come sarebbe un istogramma con meno diffusione? Ecco un'altra copia del primo istogramma; puoi disegnarci sopra come riferimento.
Studente (disegno): sto usando una penna per delineare il nuovo istogramma e sto colorando l'area sottostante. L'ho fatto in modo che la maggior parte della curva sia vicina allo zero sull'asse orizzontale e quindi la maggior parte della sua area è vicina a un valore (orizzontale) pari a zero: questo è ciò che significa essere meno distesi o più precisi.
Insegnante : È un buon inizio. Ma ricorda che un istogramma che mostra le probabilità dovrebbe avere un'area totale di . L'area totale del primo istogramma è quindi 1 . Quanta area è all'interno del tuo nuovo istogramma?11
Studente : Meno della metà, penso. Vedo che è un problema, ma non so come risolverlo. Cosa dovrei fare?
Insegnante : Il trucco è rendere il nuovo istogramma più alto di quello vecchio in modo che la sua area totale sia . Qui, ti mostrerò una versione generata da computer per illustrare.1
Studente : Capisco: l'hai allungato verticalmente in modo che la sua forma non sia cambiata davvero ma ora l'area rossa e l'area grigia (compresa la parte sotto il rosso) hanno le stesse quantità.
Insegnante : Giusto. Stai guardando un quadro dell'ipotesi nulla (in blu, disteso) e parte dell'ipotesi alternativa (in rosso, con meno diffusione).
Studente : Cosa intendi con "parte" dell'alternativa? Non è solo l' ipotesi alternativa?
Insegnante : statistici e grammatica non sembrano mescolarsi. :-) Scherzi a parte, ciò che significano per "ipotesi" di solito è una serie di possibilità. Qui, l'alternativa (come hai affermato così bene prima) è che le misurazioni sono "meno diffuse" rispetto a prima. Ma quanto meno ? Ci sono molte possibilità Ecco, lascia che te ne mostri un altro. L'ho disegnato con trattini gialli. È tra i due precedenti.
Studente : Capisco: puoi avere diverse quantità di spread ma non sai in anticipo quanto sarà veramente lo spread. Ma perché hai creato l'ombreggiatura divertente in questa foto?
Insegnante : Volevo evidenziare dove e come differiscono gli istogrammi. Li ho ombreggiati in grigio dove gli istogrammi alternativi sono più bassi del nullo e in rosso dove le alternative sono più alte .
Studente : Perché dovrebbe importare?
Insegnante : Ricordi come hai colorato il primo istogramma in entrambe le code? [Guardando attraverso i giornali.] Ah, eccolo qui. Coloriamo questa immagine allo stesso modo.
Studente : Ricordo: questi sono i valori estremi. Ho trovato i luoghi in cui la densità nulla era il più piccola possibile e colorata nel 10% dell'area lì.
Insegnante : Parlami delle alternative in quelle aree estreme.
Studente : È difficile da vedere, perché il pastello lo ha coperto, ma sembra che non ci sia quasi alcuna possibilità che ci siano alternative nelle aree che ho colorato. I loro istogrammi sono rivolti verso il basso rispetto all'asse del valore e non c'è spazio per alcuna area sottostante.
Insegnante : Continuiamo quel pensiero. Se ti avessi detto, ipoteticamente, che una misurazione avesse uno spostamento di , e ti chiedessi di scegliere quale di questi tre istogrammi fosse quello da cui molto probabilmente proveniva, quale sarebbe?−2
Studente : il primo - quello blu. È il più esteso ed è l'unico in cui sembra avere qualche possibilità di verificarsi.−2
Insegnante : E il valore di nel manoscritto?0.1
Studente : Hmmm ... questa è una storia diversa. Tutti e tre gli istogrammi sono piuttosto alti dal suolo a .0.1
Insegnante : OK, abbastanza onesto. Ma supponiamo di averti detto che il valore era da qualche parte vicino a , come tra 0 e 0,2 . Questo ti aiuta a leggere alcune probabilità di questi grafici?0.100.2
Studente : Certo, perché posso usare le aree. Devo solo stimare le aree sotto ogni curva tra e 0,2 . Ma sembra piuttosto difficile.00.2
Insegnante : Non devi andare così lontano. Puoi dire quale area è la più grande?
Studente : quello sotto la curva più alta, ovviamente. Tutte e tre le aree hanno la stessa base, quindi più alta è la curva, più area c'è sotto di essa e la base. Ciò significa che l'istogramma più alto - quello che ho disegnato, con i trattini rossi - è il più probabile per uno spostamento di . Penso di vedere dove stai andando con questo, ma sono un po 'preoccupato: non devo guardare tutti gli istogrammi per tutte le alternative, non solo uno o due mostrati qui? Come potrei farlo?0.1
Insegnante : Sei bravo a raccogliere schemi, quindi dimmi: quando l'apparato di misurazione è reso sempre più preciso, cosa succede al suo istogramma?
Studente : Diventa più stretto - oh, e deve anche diventare più alto, quindi la sua area totale rimane la stessa. Ciò rende abbastanza difficile confrontare gli istogrammi. Quelli alternativi sono tutti più alti del diritto nullo a , questo è ovvio. Ma ad altri valori a volte le alternative sono più alte e altre volte sono più basse! Ad esempio, [indicando un valore vicino 3 / 4 ], proprio qui la mia istogramma rosso è il più basso, l'istogramma di colore giallo è il più alto, e l'istogramma nulla originale è tra di loro. Ma oltre a destra il nulla è il più alto.03/4
Insegnante : In generale, confrontare gli istogrammi è un affare complicato. Per aiutarci a farlo, ho chiesto al computer di fare un'altra trama: ha diviso ognuna delle altezze alternative dell'istogramma (o "densità") per l'altezza dell'istogramma nulla, creando valori noti come "rapporti di verosimiglianza". Di conseguenza, un valore maggiore di indica che l'alternativa è più probabile, mentre un valore inferiore a 1 indica che l'alternativa è meno probabile. Ha disegnato ancora un'altra alternativa: è più diffusa rispetto alle altre due, ma ancora meno diffusa rispetto all'apparato originale.11
Insegnante (continua): Potresti mostrarmi dove le alternative tendono ad essere più probabili del nulla?
Studente (da colorare): qui nel mezzo, ovviamente. E poiché questi non sono più istogrammi, suppongo che dovremmo guardare le altezze piuttosto che le aree, quindi sto solo contrassegnando un intervallo di valori sull'asse orizzontale. Ma come faccio a sapere in quale parte del mezzo colorare? Dove smetto di colorare?
Insegnante : Non esiste una regola ferma. Tutto dipende da come intendiamo utilizzare le nostre conclusioni e da quanto feroci siano gli scettici. Ma siediti e pensa a ciò che hai realizzato: ora ti rendi conto che i risultati con elevati rapporti di probabilità sono prove per l'alternativa e i risultati con piccoli rapporti di probabilità sono prove contro l'alternativa. Quello che ti chiederò di fare è colorare un'area che, per quanto possibile, ha una piccola possibilità di verificarsi sotto l'ipotesi nulla e una possibilità relativamente grande di verificarsi sotto le alternative. Tornando al primo diagramma che hai colorato, molto indietro all'inizio della nostra conversazione, hai colorato le due code del nulla perché erano "estreme". Farebbero ancora un buon lavoro?
Studente : Io non la penso così. Anche se erano piuttosto estremi e rari sotto l'ipotesi nulla, sono praticamente impossibili per nessuna delle alternative. Se la mia nuova misurazione fosse, diciamo , penso che mi schiererei dallo scettico e negherei che si fosse verificato un miglioramento, anche se 3.0 era comunque un risultato insolito. Voglio cambiare quella colorazione. Ecco, fammi avere un altro pastello.3.03.0
Insegnante : Cosa rappresenta?
Studente : Abbiamo iniziato con te che mi chiedevi di disegnare solo il 10% dell'area sotto l'istogramma originale, quello che descrive il nulla. Così ora ho disegnato il 10% dell'area in cui le alternative sembrano più probabili. Penso che quando una nuova misurazione è in quell'area, ci sta dicendo che dovremmo credere all'alternativa.
Insegnante : E come dovrebbe reagire lo scettico a questo?
Studente : Uno scettico non deve mai ammettere che ha torto, vero? Ma penso che la sua fede dovrebbe essere un po 'scossa. Dopotutto, l'abbiamo organizzato in modo tale che, sebbene una misurazione potesse essere all'interno dell'area che ho appena disegnato, ha solo una probabilità del 10% di essere lì quando il valore nullo è vero. E ha maggiori possibilità di essere lì quando l'alternativa è vera. Non posso dirti quanto sia grande questa possibilità, perché dipenderebbe da quanto lo scienziato ha migliorato l'apparato. So solo che è più grande. Quindi l'evidenza sarebbe contro lo scettico.
Insegnante : Va bene. Ti dispiacerebbe riassumere la tua comprensione in modo che siamo perfettamente chiari su ciò che hai imparato?
Studente : ho imparato che per confrontare ipotesi alternative con ipotesi nulle, dovremmo confrontare i loro istogrammi. Dividiamo le densità delle alternative per la densità del nulla: questo è quello che hai chiamato il "rapporto di verosimiglianza". Per fare un buon test, dovrei scegliere un piccolo numero come il 10% o quant'altro possa bastare a scuotere uno scettico. Quindi dovrei trovare valori in cui il rapporto di probabilità è il più alto possibile e colorarli fino a quando il 10% (o qualsiasi altra cosa) sia stato colorato.
Insegnante : E come useresti quella colorazione?
Alunno : Come mi hai ricordato prima, la colorazione deve essere tra le linee verticali. I valori (sull'asse orizzontale) che si trovano sotto la colorazione sono prove contro l'ipotesi nulla. Altri valori - beh, è difficile dire cosa potrebbero significare senza dare un'occhiata più dettagliata a tutti gli istogrammi coinvolti.
Insegnante : tornare al valore di 0.1 nel manoscritto, cosa vorresti concludere?
Alunno : È all'interno dell'area che ho colorato per ultimo, quindi penso che lo scienziato probabilmente avesse ragione e che l'apparato fosse davvero migliorato.
Insegnante : Un'ultima cosa. La tua conclusione si è basata sulla scelta del 10% come criterio o "dimensione" del test. Molte persone preferiscono invece utilizzare il 5%. Alcuni preferiscono l'1%. Cosa potresti dire loro?
Studente : non ho potuto fare tutti quei test in una volta! Beh, forse potrei in un certo senso. Vedo che, indipendentemente dalle dimensioni del test, dovrei iniziare a colorare da , che è in questo senso il valore "più estremo", e procedere verso l'esterno in entrambe le direzioni da lì. Se dovessi fermarmi a 0,1 - il valore effettivamente osservato - penso che avrei colorato in un'area compresa tra 0,05 e 0,1 , diciamo 0,08 . Il 5% e l'1% delle persone hanno capito subito che ho colorato troppo: se avessero voluto colorare solo il 5% o l'1%, avrebbero potuto, ma non sarebbero arrivati allo 0,100.10.050.10,080.1. Non arriverebbero alla stessa conclusione che ho fatto: direbbero che non ci sono prove sufficienti che si sia verificato un cambiamento.
Maestro : Mi hai appena detto cosa significano realmente tutte quelle citazioni all'inizio . Dovrebbe essere ovvio da questo esempio che non possono eventualmente intendersi "più estremi" o "maggiori o uguali" o "almeno altrettanto grandi" nel senso di avere un valore maggiore o addirittura avere un valore in cui la densità nulla è piccola. Significano davvero queste cose nel senso di grandi rapporti di probabilità che hai descritto. A proposito, il numero intorno a che hai calcolato è chiamato "valore p". Può essere compreso correttamente solo nel modo in cui è stato descritto: rispetto a un'analisi delle altezze relative dell'istogramma: i rapporti di probabilità.0,08
Studente : grazie. Non sono sicuro di aver ancora capito tutto, ma mi hai dato molto su cui riflettere.
Insegnante : Se vuoi andare oltre, dai un'occhiata al Lemma di Neyman-Pearson . Probabilmente sei pronto a capirlo ora.
Sinossi
Molti test basati su una singola statistica come quella nella finestra di dialogo lo chiameranno " " o " t ". Questi sono modi per accennare a come appare l'istogramma null, ma sono solo suggerimenti: ciò che chiamiamo questo numero non ha importanza. La costruzione riassunta dallo studente, come illustrato qui, mostra come è correlata al valore p. Il valore p è la dimensione del test più piccola che provocherebbe il rifiuto di un'ipotesi nulla di t = 0,1 .ztt = 0,1
0t = 0,1è raggiunto. Il valore p è l'area della regione ombreggiata sotto l'istogramma null: è la possibilità, supponendo che il null sia vero, di osservare un risultato i cui rapporti di probabilità tendono ad essere grandi indipendentemente da quale alternativa sembra vera. In particolare, questa costruzione dipende intimamente dall'ipotesi alternativa. Non può essere eseguito senza specificare le possibili alternative.