Qual è il significato dei valori p e t nei test statistici?


246

Dopo aver seguito un corso di statistica e poi aver cercato di aiutare gli altri studenti, ho notato che una materia che ispira molto il battito della testa è l'interpretazione dei risultati dei test statistici di ipotesi. Sembra che gli studenti imparino facilmente come eseguire i calcoli richiesti da un determinato test, ma restano bloccati nell'interpretazione dei risultati. Molti strumenti informatici riportano i risultati dei test in termini di "valori p" o "valori t".

Come spiegheresti i seguenti punti agli studenti universitari che frequentano il loro primo corso di statistica:

  • Cosa significa un "valore p" in relazione all'ipotesi che viene testata? Ci sono casi in cui si dovrebbe cercare un valore p elevato o un valore p basso?

  • Qual è la relazione tra un valore p e un valore t?


11
Un bel po 'di questo è sostanzialmente coperto dalla prima frase dell'articolo di Wikipedia sui valori di p , che definisce correttamente un valore di p. Se questo è compreso, molto è chiarito.
Glen_b,

1
Basta avere il libro: Statistiche senza lacrime. Potrebbe salvare la tua sanità mentale !!

7
@ user48700 Potresti riassumere come spiega Statistics Without Tears ?
Matt Krause,

5
Qualcuno dovrebbe tracciare un grafico delle domande relative al valore p nel tempo e scommetto che vedremo la stagionalità e la correlazione con i calendari accademici nei college o nelle classi di data science di Coursera
Aksakal,

Oltre ad altri consigli su libri utili e pertinenti nelle risposte e nei commenti, vorrei suggerire un altro libro, opportunamente chiamato "Che cos'è comunque un valore p?" .
Aleksandr Blekh,

Risposte:


150

Capire -valuep

Supponiamo che tu voglia testare l'ipotesi che l'altezza media degli studenti maschi nella tua Università sia di piedi e 7 pollici. Raccogli altezze di 100 studenti selezionati a caso e calcola la media del campione (supponiamo che risulti essere 5 piedi e 9 pollici). Usando una formula appropriata / routine statistica si calcola il valore p per la propria ipotesi e si dice che risulta essere 0,06 .5710059p0.06

Per interpretare in modo appropriato , dovremmo tenere a mente diverse cose:p=0.06

  1. Il primo passo sotto il test di ipotesi classica è l'assunto che l'ipotesi in esame sia vera. (Nel nostro contesto, supponiamo che la vera altezza media sia di piedi e 7 pollici.)57

  2. Immagina di fare il seguente calcolo: Calcola la probabilità che la media del campione sia maggiore di ft 9 pollici supponendo che la nostra ipotesi sia effettivamente corretta (vedi punto 1).59

In altre parole, vogliamo conoscere

P(Sun'mplemeun'n5ft9ioncheS|Truevun'lue=5ft7ioncheS).

Il calcolo nel passaggio 2 è quello che viene chiamato il valore . Pertanto, un valore p di 0,06 significherebbe che se dovessimo ripetere il nostro esperimento molte, molte volte (ogni volta che selezioniamo 100 studenti a caso e calcoliamo la media del campione), quindi 6 volte su 100 possiamo aspettarci di vedere un campione significa maggiore o uguale a 5 ft 9 pollici.pp0.06100610059

Data la comprensione di cui sopra, dovremmo ancora mantenere la nostra ipotesi che la nostra ipotesi sia vera (vedere il passaggio 1)? Bene, una indica che è successa una di queste due cose:p=0.06

  • (A) O la nostra ipotesi è corretta e si è verificato un evento estremamente improbabile (ad esempio, tutti i studenti sono atleti studenti)100

o

  • (B) La nostra ipotesi non è corretta e il campione che abbiamo ottenuto non è così insolito.

Il modo tradizionale di scegliere tra (A) e (B) è scegliere un taglio arbitrario per . Scegliamo (A) se p > 0,05 e (B) se p < 0,05 .pp>0.05p<0.05


3
Prenditi il ​​tuo tempo! Non penserò di selezionare una "migliore risposta" per circa una settimana.
Sharpie,

1
Ora che ho avuto la possibilità di tornare a leggere l'intera risposta, un grande +1 per l'esempio di altezza degli studenti. Molto chiaro e ben strutturato.
Sharpie,

3
Bel lavoro ... ma dobbiamo aggiungere (C) il nostro modello (incarnato nella formula / routine statistica) è sbagliato.
Andrew Robinson,

6
Un valore t (o qualsiasi altra statistica di prova) è principalmente un passaggio intermedio. È fondamentalmente una statistica che ha dimostrato, sotto alcune ipotesi, di avere una distribuzione ben nota. Dato che conosciamo la distribuzione della statistica test sotto zero, possiamo quindi utilizzare tabelle standard (oggi principalmente software) per ricavare un valore p.
Gala,

1
Il valore p non deriva dal risultato del test chi-quadro e quindi dalla tabella chi-quadrato? Mi chiedo come mai la probabilità calcolata sopra ha indicato il valore p stesso ?!
Ragazzo di Londra,

123

Una finestra di dialogo tra un insegnante e uno studente riflessivo

Umilmente presentato nella convinzione che finora non sono stati utilizzati abbastanza pastelli in questo thread. Alla fine appare una breve sinossi illustrato.


Studente : cosa significa un valore p? Molte persone sembrano concordare sul fatto che "vedremo una media del campione maggiore o uguale a" una statistica o è "la probabilità di osservare questo risultato ... dato che l'ipotesi nulla è vera" o dove "la statistica del mio campione è ricaduto su una distribuzione [simulata] " e persino " sulla probabilità di osservare una statistica del test almeno grande quanto quella calcolata assumendo che l'ipotesi nulla sia vera " .

Insegnante : Compresi correttamente, tutte queste affermazioni sono corrette in molte circostanze.

Studente : Non vedo come la maggior parte di essi siano rilevanti. Non ci hai insegnato che dobbiamo dichiarare un'ipotesi nulla e un'ipotesi alternativa H A ? Come sono coinvolti in queste idee di "maggiore o uguale a" o "almeno altrettanto grande" o molto popolare "più estremo"?H0HA

Insegnante : Perché può sembrare complicato in generale, ci aiuterebbe a esplorare un esempio concreto?

Studente : certo. Ma per favore rendilo realistico ma semplice se puoi.

Insegnante : Questa teoria della verifica delle ipotesi è iniziata storicamente con la necessità degli astronomi di analizzare gli errori osservativi, quindi che ne dici di iniziare da lì. Un giorno stavo esaminando alcuni vecchi documenti in cui uno scienziato ha descritto i suoi sforzi per ridurre l'errore di misurazione nel suo apparato. Aveva preso molte misure di una stella in una posizione nota e ha registrato i loro spostamenti davanti o dietro quella posizione. Per visualizzare quegli spostamenti, tracciò un istogramma che - quando levigato un po '- assomigliava a questo.

Figura 1: istogramma degli spostamenti

Studente : Ricordo come funzionano gli istogrammi: l'asse verticale è etichettato "Densità" per ricordarmi che le frequenze relative delle misurazioni sono rappresentate dall'area piuttosto che dall'altezza.

Insegnante : Esatto. Un valore "insolito" o "estremo" sarebbe localizzato in una regione con un'area piuttosto piccola. Ecco un pastello. Pensi di poter colorare in una regione la cui area è solo un decimo del totale?

Studente : Sicuro; questo è facile. [Colori nella figura.]

Figura 2: prima colorazione dello studente.

Insegnante : Molto bene! A me sembra circa il 10% dell'area. Ricorda, tuttavia, che le uniche aree dell'istogramma che contano sono quelle tra le linee verticali: rappresentano la probabilità o la probabilità che lo spostamento si trovi tra quelle linee sull'asse orizzontale. Ciò significa che dovevi colorare fino in fondo e che sarebbe oltre la metà dell'area, no?

Studente : Oh, capisco. Fammi riprovare. Voglio colorare dove la curva è davvero bassa, no? È più basso alle due estremità. Devo colorare in una sola area o sarebbe giusto dividerlo in più parti?

Insegnante : l'utilizzo di più parti è un'idea intelligente. Dove sarebbero?

Studente (indicando): qui e qui. Poiché questo pastello non è molto nitido, ho usato una penna per mostrarti le linee che sto usando.

Figura 3: la seconda colorazione dello studente

Insegnante : Molto carino! Lascia che ti racconti il ​​resto della storia. Lo scienziato ha apportato alcuni miglioramenti al suo dispositivo e poi ha preso ulteriori misurazioni. Ha scritto che lo spostamento del primo era solo , che pensava fosse un buon segno, ma essendo uno scienziato attento ha proceduto a prendere più misurazioni come controllo. Sfortunatamente, quelle altre misurazioni vengono perse - il manoscritto si interrompe a questo punto - e tutto ciò che abbiamo è quel singolo numero, 0,1 .0.10.1

Studente : È un peccato. Ma non è molto meglio dell'ampia diffusione di spostamenti nella tua figura?

Maestro : Questa è la domanda a cui vorrei che tu rispondessi. Per cominciare, cosa dovremmo considerare come ?H0

Studente : Beh, uno scettico si chiederebbe se i miglioramenti apportati al dispositivo abbiano avuto alcun effetto. L'onere della prova è per lo scienziato: vorrebbe dimostrare che lo scettico è sbagliato. Questo mi fa pensare che l'ipotesi nulla sia un po 'brutta per lo scienziato: dice che tutte le nuove misurazioni - incluso il valore di che conosciamo - dovrebbero comportarsi come descritto dal primo istogramma. O forse anche peggio: potrebbero essere ancora più distesi.0.1

Insegnante : Dai, stai andando bene.

Studente : E quindi l'alternativa è che le nuove misurazioni sarebbero meno diffuse, giusto?

Insegnante : Molto bene! Potresti farmi un quadro di come sarebbe un istogramma con meno diffusione? Ecco un'altra copia del primo istogramma; puoi disegnarci sopra come riferimento.

Studente (disegno): sto usando una penna per delineare il nuovo istogramma e sto colorando l'area sottostante. L'ho fatto in modo che la maggior parte della curva sia vicina allo zero sull'asse orizzontale e quindi la maggior parte della sua area è vicina a un valore (orizzontale) pari a zero: questo è ciò che significa essere meno distesi o più precisi.

Figura 4: nuovo istogramma dello studente

Insegnante : È un buon inizio. Ma ricorda che un istogramma che mostra le probabilità dovrebbe avere un'area totale di . L'area totale del primo istogramma è quindi 1 . Quanta area è all'interno del tuo nuovo istogramma?11

Studente : Meno della metà, penso. Vedo che è un problema, ma non so come risolverlo. Cosa dovrei fare?

Insegnante : Il trucco è rendere il nuovo istogramma più alto di quello vecchio in modo che la sua area totale sia . Qui, ti mostrerò una versione generata da computer per illustrare.1

Figura 5: nuovo istogramma dell'insegnante

Studente : Capisco: l'hai allungato verticalmente in modo che la sua forma non sia cambiata davvero ma ora l'area rossa e l'area grigia (compresa la parte sotto il rosso) hanno le stesse quantità.

Insegnante : Giusto. Stai guardando un quadro dell'ipotesi nulla (in blu, disteso) e parte dell'ipotesi alternativa (in rosso, con meno diffusione).

Studente : Cosa intendi con "parte" dell'alternativa? Non è solo l' ipotesi alternativa?

Insegnante : statistici e grammatica non sembrano mescolarsi. :-) Scherzi a parte, ciò che significano per "ipotesi" di solito è una serie di possibilità. Qui, l'alternativa (come hai affermato così bene prima) è che le misurazioni sono "meno diffuse" rispetto a prima. Ma quanto meno ? Ci sono molte possibilità Ecco, lascia che te ne mostri un altro. L'ho disegnato con trattini gialli. È tra i due precedenti.

Figura 6: il null insieme a due elementi dell'alternativa

Studente : Capisco: puoi avere diverse quantità di spread ma non sai in anticipo quanto sarà veramente lo spread. Ma perché hai creato l'ombreggiatura divertente in questa foto?

Insegnante : Volevo evidenziare dove e come differiscono gli istogrammi. Li ho ombreggiati in grigio dove gli istogrammi alternativi sono più bassi del nullo e in rosso dove le alternative sono più alte .

Studente : Perché dovrebbe importare?

Insegnante : Ricordi come hai colorato il primo istogramma in entrambe le code? [Guardando attraverso i giornali.] Ah, eccolo qui. Coloriamo questa immagine allo stesso modo.

Figura 7: null e alternativa, colorata.

Studente : Ricordo: questi sono i valori estremi. Ho trovato i luoghi in cui la densità nulla era il più piccola possibile e colorata nel 10% dell'area lì.

Insegnante : Parlami delle alternative in quelle aree estreme.

Studente : È difficile da vedere, perché il pastello lo ha coperto, ma sembra che non ci sia quasi alcuna possibilità che ci siano alternative nelle aree che ho colorato. I loro istogrammi sono rivolti verso il basso rispetto all'asse del valore e non c'è spazio per alcuna area sottostante.

Insegnante : Continuiamo quel pensiero. Se ti avessi detto, ipoteticamente, che una misurazione avesse uno spostamento di , e ti chiedessi di scegliere quale di questi tre istogrammi fosse quello da cui molto probabilmente proveniva, quale sarebbe?2

Studente : il primo - quello blu. È il più esteso ed è l'unico in cui sembra avere qualche possibilità di verificarsi.2

Insegnante : E il valore di nel manoscritto?0.1

Studente : Hmmm ... questa è una storia diversa. Tutti e tre gli istogrammi sono piuttosto alti dal suolo a .0.1

Insegnante : OK, abbastanza onesto. Ma supponiamo di averti detto che il valore era da qualche parte vicino a , come tra 0 e 0,2 . Questo ti aiuta a leggere alcune probabilità di questi grafici?0.100.2

Studente : Certo, perché posso usare le aree. Devo solo stimare le aree sotto ogni curva tra e 0,2 . Ma sembra piuttosto difficile.00.2

Insegnante : Non devi andare così lontano. Puoi dire quale area è la più grande?

Studente : quello sotto la curva più alta, ovviamente. Tutte e tre le aree hanno la stessa base, quindi più alta è la curva, più area c'è sotto di essa e la base. Ciò significa che l'istogramma più alto - quello che ho disegnato, con i trattini rossi - è il più probabile per uno spostamento di . Penso di vedere dove stai andando con questo, ma sono un po 'preoccupato: non devo guardare tutti gli istogrammi per tutte le alternative, non solo uno o due mostrati qui? Come potrei farlo?0.1

Insegnante : Sei bravo a raccogliere schemi, quindi dimmi: quando l'apparato di misurazione è reso sempre più preciso, cosa succede al suo istogramma?

Studente : Diventa più stretto - oh, e deve anche diventare più alto, quindi la sua area totale rimane la stessa. Ciò rende abbastanza difficile confrontare gli istogrammi. Quelli alternativi sono tutti più alti del diritto nullo a , questo è ovvio. Ma ad altri valori a volte le alternative sono più alte e altre volte sono più basse! Ad esempio, [indicando un valore vicino 3 / 4 ], proprio qui la mia istogramma rosso è il più basso, l'istogramma di colore giallo è il più alto, e l'istogramma nulla originale è tra di loro. Ma oltre a destra il nulla è il più alto.03/4

Insegnante : In generale, confrontare gli istogrammi è un affare complicato. Per aiutarci a farlo, ho chiesto al computer di fare un'altra trama: ha diviso ognuna delle altezze alternative dell'istogramma (o "densità") per l'altezza dell'istogramma nulla, creando valori noti come "rapporti di verosimiglianza". Di conseguenza, un valore maggiore di indica che l'alternativa è più probabile, mentre un valore inferiore a 1 indica che l'alternativa è meno probabile. Ha disegnato ancora un'altra alternativa: è più diffusa rispetto alle altre due, ma ancora meno diffusa rispetto all'apparato originale.11

Figura 8: rapporti di verosimiglianza

Insegnante (continua): Potresti mostrarmi dove le alternative tendono ad essere più probabili del nulla?

Studente (da colorare): qui nel mezzo, ovviamente. E poiché questi non sono più istogrammi, suppongo che dovremmo guardare le altezze piuttosto che le aree, quindi sto solo contrassegnando un intervallo di valori sull'asse orizzontale. Ma come faccio a sapere in quale parte del mezzo colorare? Dove smetto di colorare?

Figura 9: grafici del rapporto di probabilità marcato

Insegnante : Non esiste una regola ferma. Tutto dipende da come intendiamo utilizzare le nostre conclusioni e da quanto feroci siano gli scettici. Ma siediti e pensa a ciò che hai realizzato: ora ti rendi conto che i risultati con elevati rapporti di probabilità sono prove per l'alternativa e i risultati con piccoli rapporti di probabilità sono prove contro l'alternativa. Quello che ti chiederò di fare è colorare un'area che, per quanto possibile, ha una piccola possibilità di verificarsi sotto l'ipotesi nulla e una possibilità relativamente grande di verificarsi sotto le alternative. Tornando al primo diagramma che hai colorato, molto indietro all'inizio della nostra conversazione, hai colorato le due code del nulla perché erano "estreme". Farebbero ancora un buon lavoro?

Studente : Io non la penso così. Anche se erano piuttosto estremi e rari sotto l'ipotesi nulla, sono praticamente impossibili per nessuna delle alternative. Se la mia nuova misurazione fosse, diciamo , penso che mi schiererei dallo scettico e negherei che si fosse verificato un miglioramento, anche se 3.0 era comunque un risultato insolito. Voglio cambiare quella colorazione. Ecco, fammi avere un altro pastello.3.03.0

Figura 10: markup migliorato

Insegnante : Cosa rappresenta?

Studente : Abbiamo iniziato con te che mi chiedevi di disegnare solo il 10% dell'area sotto l'istogramma originale, quello che descrive il nulla. Così ora ho disegnato il 10% dell'area in cui le alternative sembrano più probabili. Penso che quando una nuova misurazione è in quell'area, ci sta dicendo che dovremmo credere all'alternativa.

Insegnante : E come dovrebbe reagire lo scettico a questo?

Studente : Uno scettico non deve mai ammettere che ha torto, vero? Ma penso che la sua fede dovrebbe essere un po 'scossa. Dopotutto, l'abbiamo organizzato in modo tale che, sebbene una misurazione potesse essere all'interno dell'area che ho appena disegnato, ha solo una probabilità del 10% di essere lì quando il valore nullo è vero. E ha maggiori possibilità di essere lì quando l'alternativa è vera. Non posso dirti quanto sia grande questa possibilità, perché dipenderebbe da quanto lo scienziato ha migliorato l'apparato. So solo che è più grande. Quindi l'evidenza sarebbe contro lo scettico.

Insegnante : Va bene. Ti dispiacerebbe riassumere la tua comprensione in modo che siamo perfettamente chiari su ciò che hai imparato?

Studente : ho imparato che per confrontare ipotesi alternative con ipotesi nulle, dovremmo confrontare i loro istogrammi. Dividiamo le densità delle alternative per la densità del nulla: questo è quello che hai chiamato il "rapporto di verosimiglianza". Per fare un buon test, dovrei scegliere un piccolo numero come il 10% o quant'altro possa bastare a scuotere uno scettico. Quindi dovrei trovare valori in cui il rapporto di probabilità è il più alto possibile e colorarli fino a quando il 10% (o qualsiasi altra cosa) sia stato colorato.

Insegnante : E come useresti quella colorazione?

Alunno : Come mi hai ricordato prima, la colorazione deve essere tra le linee verticali. I valori (sull'asse orizzontale) che si trovano sotto la colorazione sono prove contro l'ipotesi nulla. Altri valori - beh, è ​​difficile dire cosa potrebbero significare senza dare un'occhiata più dettagliata a tutti gli istogrammi coinvolti.

Insegnante : tornare al valore di 0.1 nel manoscritto, cosa vorresti concludere?

Alunno : È all'interno dell'area che ho colorato per ultimo, quindi penso che lo scienziato probabilmente avesse ragione e che l'apparato fosse davvero migliorato.

Insegnante : Un'ultima cosa. La tua conclusione si è basata sulla scelta del 10% come criterio o "dimensione" del test. Molte persone preferiscono invece utilizzare il 5%. Alcuni preferiscono l'1%. Cosa potresti dire loro?

Studente : non ho potuto fare tutti quei test in una volta! Beh, forse potrei in un certo senso. Vedo che, indipendentemente dalle dimensioni del test, dovrei iniziare a colorare da , che è in questo senso il valore "più estremo", e procedere verso l'esterno in entrambe le direzioni da lì. Se dovessi fermarmi a 0,1 - il valore effettivamente osservato - penso che avrei colorato in un'area compresa tra 0,05 e 0,1 , diciamo 0,08 . Il 5% e l'1% delle persone hanno capito subito che ho colorato troppo: se avessero voluto colorare solo il 5% o l'1%, avrebbero potuto, ma non sarebbero arrivati ​​allo 0,100.10.050.10,080.1. Non arriverebbero alla stessa conclusione che ho fatto: direbbero che non ci sono prove sufficienti che si sia verificato un cambiamento.

Maestro : Mi hai appena detto cosa significano realmente tutte quelle citazioni all'inizio . Dovrebbe essere ovvio da questo esempio che non possono eventualmente intendersi "più estremi" o "maggiori o uguali" o "almeno altrettanto grandi" nel senso di avere un valore maggiore o addirittura avere un valore in cui la densità nulla è piccola. Significano davvero queste cose nel senso di grandi rapporti di probabilità che hai descritto. A proposito, il numero intorno a che hai calcolato è chiamato "valore p". Può essere compreso correttamente solo nel modo in cui è stato descritto: rispetto a un'analisi delle altezze relative dell'istogramma: i rapporti di probabilità.0,08

Studente : grazie. Non sono sicuro di aver ancora capito tutto, ma mi hai dato molto su cui riflettere.

Insegnante : Se vuoi andare oltre, dai un'occhiata al Lemma di Neyman-Pearson . Probabilmente sei pronto a capirlo ora.


Sinossi

Molti test basati su una singola statistica come quella nella finestra di dialogo lo chiameranno " " o " t ". Questi sono modi per accennare a come appare l'istogramma null, ma sono solo suggerimenti: ciò che chiamiamo questo numero non ha importanza. La costruzione riassunta dallo studente, come illustrato qui, mostra come è correlata al valore p. Il valore p è la dimensione del test più piccola che provocherebbe il rifiuto di un'ipotesi nulla di t = 0,1 .ztt=0.1

Figura 11: valore p come area.

0t=0.1è raggiunto. Il valore p è l'area della regione ombreggiata sotto l'istogramma null: è la possibilità, supponendo che il null sia vero, di osservare un risultato i cui rapporti di probabilità tendono ad essere grandi indipendentemente da quale alternativa sembra vera. In particolare, questa costruzione dipende intimamente dall'ipotesi alternativa. Non può essere eseguito senza specificare le possibili alternative.


4
Ciò ha trattato in modo eccellente il mio commento su un'altra risposta, secondo cui nessuna delle precedenti risposte a questa domanda aveva affrontato, in generale, l'aspetto "o più estremo" comunemente sentito di un valore p . (Sebbene la risposta del "test del tè" includa un buon esempio specifico.) Ammiro particolarmente il modo in cui questo esempio è stato deliberatamente costruito per evidenziare che "più estremo" può significare piuttosto il contrario di "più grande" o "più lontano da zero".
Silverfish

4
H1H1

3
Unica perspicace come sempre, grazie per aver dedicato del tempo a scrivere quelle risposte incredibilmente utili. Mi chiedo davvero perché i libri di testo non siano mai scritti in un modo che offra un livello vicino a questi livelli di chiarezza e intuizione.
Jeremy Radcliff,

Penso che un collegamento a una definizione di probabilità con questo esempio possa essere utile
baxx,

1
È pericoloso usare il sarcasmo in un commento, @baxx, perché non c'è abbastanza spazio che ci ha permesso di farlo in modo educato ed elegante. Pertanto, di solito non è una buona idea supporre che un commento sia sarcastico a meno che non te lo dica esplicitamente. Supponi solo che i commenti siano destinati ad aiutarti. Se seguissi semplicemente il primo colpo nella ricerca che ho fornito, penso che alle tue domande verrà data risposta.
whuber

44

Prima di toccare questo argomento, mi assicuro sempre che gli studenti siano felici di spostarsi tra percentuali, decimali, probabilità e frazioni. Se non ne sono completamente soddisfatti, possono confondersi molto rapidamente.

Mi piace spiegare i test di ipotesi per la prima volta (e quindi i valori di p e le statistiche dei test) attraverso il classico esperimento di tè di Fisher. Ho diverse ragioni per questo:

(i) Penso che lavorare attraverso un esperimento e definire i termini mentre procediamo abbia più senso che per definire tutti questi termini per cominciare. (ii) Non è necessario fare esplicito affidamento su distribuzioni di probabilità, aree sotto la curva, ecc. per superare i punti chiave del test di ipotesi. (iii) Spiega questa ridicola nozione di "come o più estrema di quelle osservate" in un modo abbastanza sensato (iv) Trovo che agli studenti piaccia capire la storia, le origini e la storia di ciò che stanno studiando in quanto lo rende più reale di alcune teorie astratte. (v) Non importa da quale disciplina o materia provengano gli studenti, possono riferirsi all'esempio del tè (NB Alcuni studenti internazionali hanno difficoltà con questa istituzione britannica del tè al latte.)

[Nota: originariamente ho avuto questa idea dal meraviglioso articolo di Dennis Lindley "L'analisi dei dati sperimentali: l'apprezzamento del tè e del vino" in cui dimostra perché i metodi bayesiani sono superiori ai metodi classici.]

La storia è che Muriel Bristol fa visita a Fisher un pomeriggio negli anni '20 alla Rothamsted Experimental Station per una tazza di tè. Quando Fisher inserì il latte per ultimo, si lamentò dicendo che poteva anche dire se il latte veniva versato per primo (o ultimo) e che preferiva il primo. Per metterlo alla prova, ha progettato il suo classico esperimento di tè in cui a Muriel viene presentato un paio di tazze da tè e lei deve identificare quale ha aggiunto prima il latte. Questo si ripete con sei paia di tazze da tè. Le sue scelte sono Right (R) o Wrong (W) e i suoi risultati sono: RRRRRW.

6

(a) l'ipotesi nulla (Muriel sta indovinando) è vera e si è verificato un evento di scarsa probabilità o,

(b) l'ipotesi nulla è falsa e Muriel ha poteri discriminatori.

Il p-value (o valore di probabilità) è la probabilità di osservare questo risultato (RRRRRW) dato che l'ipotesi nulla è vera - è la piccola probabilità di cui alla precedente lettera (a). In questo caso è 0,016. Poiché eventi con piccole probabilità si verificano raramente (per definizione) la situazione (b) potrebbe essere una spiegazione più preferibile di ciò che è accaduto rispetto alla situazione (a). Quando respingiamo l'ipotesi nulla accettiamo di fatto l'ipotesi opposta, che è quella che chiamiamo ipotesi alternativa. In questo esempio, Muriel ha poteri discriminatori è l'ipotesi alternativa.

Una considerazione importante è cosa classifichiamo come una "piccola" probabilità? Qual è il punto limite in cui siamo disposti a dire che un evento è improbabile? Il benchmark standard è del 5% (0,05) e questo è chiamato livello di significatività. Quando il valore p è inferiore al livello di significatività, rifiutiamo l'ipotesi nulla come falsa e accettiamo la nostra ipotesi alternativa. È opinione comune affermare che un risultato è "significativo" quando il valore p è inferiore al livello di significatività, cioè quando la probabilità che ciò che si è verificato verificando che l'ipotesi nulla sia vera è minore del nostro punto di interruzione. È importante chiarire che l'utilizzo del 5% è completamente soggettivo (così come gli altri livelli di significatività comuni dell'1% e del 10%).

Fisher capì che non funzionava; ogni possibile risultato con una coppia sbagliata era ugualmente suggestivo di poteri discriminatori. La probabilità rilevante per la situazione (a), sopra, è quindi di 6 (0,5) ^ 6 = 0,094 (o 6/64) che ora non è significativa con un livello di significatività del 5%. Per ovviare a ciò, Fisher ha sostenuto che se 1 errore su 6 è considerato prova di poteri discriminatori, allora non lo sono nemmeno errori, vale a dire risultati che indicano più fortemente poteri discriminatori di quello osservato dovrebbero essere inclusi nel calcolo del valore p. Ciò ha comportato la seguente modifica del ragionamento:

(a) l'ipotesi nulla (Muriel sta indovinando) è vera e la probabilità di eventi come, o più, estremi di quanto osservato è piccola, oppure

(b) l'ipotesi nulla è falsa e Muriel ha poteri discriminatori.

Torniamo al nostro esperimento sul tè e scopriamo che il valore p in questo set-up è 7 (0,5) ^ 6 = 0,109 che non è ancora significativo alla soglia del 5%.

Poi induco gli studenti a lavorare con alcuni altri esempi come il lancio della moneta per capire se una moneta è giusta. Questo porta a termine i concetti di ipotesi nulla / alternativa, valori p e livelli di significatività. Passiamo quindi al caso di una variabile continua e introduciamo la nozione di test-statistica. Dato che abbiamo già trattato la distribuzione normale, la distribuzione normale standard e la trasformazione z in profondità, si tratta semplicemente di mettere insieme diversi concetti.

Oltre a calcolare statistiche di test, valori p e prendere una decisione (significativa / non significativa), faccio in modo che gli studenti lavorino attraverso gli articoli pubblicati compilando il gioco degli spazi vuoti mancante.


2
So che sto in qualche modo rilanciando un thread molto vecchio, ma qui va ... Mi piaceva davvero la tua risposta, ma mi manca la parte t-value in esso :( Potresti per favore usare i tuoi esempi forniti per parlarne? Nessuno rispose sulla parte del test t
Sosi il

@sosi Probabilmente è perché i valori p sono molto più generali dei valori t. È come fare una domanda sulle auto e poi sui freni di una Ford Fiesta.
congetture il

2
ppp

27

Nessuna quantità di spiegazioni o calcoli verbali mi ha davvero aiutato a capire a livello intestinale quali fossero i valori p, ma è tornato a fuoco per me una volta che ho seguito un corso che prevedeva la simulazione. Ciò mi ha dato la possibilità di vedere effettivamente i dati generati dall'ipotesi nulla e di tracciare i mezzi / ecc. di campioni simulati, quindi guarda dove la statistica del mio campione è caduta su quella distribuzione.

Penso che il vantaggio principale di ciò sia che permette agli studenti di dimenticare per un minuto la distribuzione della matematica e delle statistiche dei test e di concentrarsi sui concetti a portata di mano. Certo, ha richiesto che imparo come simulare quella roba, che causerà problemi per una serie completamente diversa di studenti. Ma ha funzionato per me e ho usato innumerevoli volte la simulazione per aiutare a spiegare le statistiche ad altri con grande successo (ad esempio, "Ecco come sono i tuoi dati; ecco come appare una distribuzione di Poisson sovrapposta. Sei sicuro di volere fare una regressione di Poisson? ").

Questo non risponde esattamente alle domande che hai posto, ma almeno per me le ha rese banali.


10
Concordo con tutto il cuore sull'uso della simulazione per spiegare questo. Ma solo una piccola nota sull'esempio alla fine: trovo che le persone (non solo gli studenti) trovino difficile distinguere per una particolare ipotesi distributiva, ad esempio il poisson, tra l'essere marginalmente distribuito e essere condizionatamente distribuito. Poiché solo quest'ultimo è importante per un modello di regressione, un gruppo di valori variabili dipendenti che non sono instabili non deve necessariamente essere motivo di preoccupazione.
conjugateprior,

1
Devo confessare che non lo sapevo. Ho davvero apprezzato i tuoi commenti su questo sito negli ultimi giorni della tua iscrizione - spero che rimarrai.
Matt Parker,

@MattParker conosci qualche risorsa di apprendimento focalizzata sull'uso della simulazione per sviluppare la comprensione? O è solo un caso di mettere insieme alcuni script Python / R ed eseguire un sacco di test?
baxx,

1
@baxx Il [sito web Theinging Theory di Daniel Kunin] (students.brown.edu/seeing-theory/) ha alcuni strumenti interessanti per questo, ma è ancora in costruzione. Altrimenti, sì, ho in gran parte appena sperimentato gli strumenti integrati di R per la simulazione - usandoli per dimostrare a me stesso come funziona un metodo o per vedere cosa accadrebbe se un predittore fosse sostituito con una variabile casuale, ecc. Scusa, Vorrei sapere di risorse migliori per questo!
Matt Parker

@MattParker cool grazie. Sì - un po 'di pollo e uova in questo, per costruire gli esperimenti che (suppongo?) Devi avere almeno abbastanza per scriverli. Non preoccuparti però ..... Ho appena controllato il sito che hai collegato, è bello, grazie
baxx,

16

Una bella definizione di p-value è "la probabilità di osservare una statistica del test almeno grande quanto quella calcolata assumendo che l'ipotesi nulla sia vera".

Il problema è che richiede una comprensione della "statistica test" e dell '"ipotesi nulla". Ma è facile da capire. Se l'ipotesi nulla è vera, di solito qualcosa come "parametro della popolazione A è uguale al parametro della popolazione B" e si calcolano le statistiche per stimare quei parametri, qual è la probabilità di vedere una statistica di prova che dice "sono questi diverso"?

Ad esempio, se la moneta è giusta, qual è la probabilità che vedrei 60 teste su 100 lanci? Questo sta verificando l'ipotesi nulla, "la moneta è giusta" o "p = .5" dove p è la probabilità delle teste.

La statistica del test in quel caso sarebbe il numero di teste.

Ora suppongo che ciò che stai chiamando "valore t" sia una "statistica test" generica, non un valore da una "distribuzione t". Non sono la stessa cosa e il termine "valore t" non è (necessariamente) ampiamente usato e potrebbe essere fonte di confusione.

Quello che stai chiamando "valore t" è probabilmente quello che io chiamo "statistica test". Per calcolare un valore p (ricorda, è solo una probabilità) hai bisogno di una distribuzione e di un valore da collegare a quella distribuzione che restituirà una probabilità. Una volta che lo fai, la probabilità che ritorni è il tuo valore p. Puoi vedere che sono correlati perché sotto la stessa distribuzione, diverse statistiche di test restituiranno valori p diversi. Statistiche di test più estreme restituiranno valori p più bassi dando una maggiore indicazione che l'ipotesi nulla è falsa.

Ho ignorato il problema dei valori p unilaterali e bilaterali qui.


11

Immagina di avere una borsa contenente 900 biglie nere e 100 bianche, ovvero il 10% delle biglie sono bianche. Ora immagina di estrarre 1 marmo, guardarlo e registrarne il colore, estrarne un altro, registrarne il colore ecc. E farlo 100 volte. Alla fine di questo processo avrai un numero per i marmi bianchi che, idealmente, ci aspetteremmo di essere 10, cioè il 10% di 100, ma in realtà potrebbero essere 8, o 13 o qualsiasi altra cosa semplicemente dovuta alla casualità. Se ripeti questo esperimento di prelievo di marmo 100 molte volte e poi traccia un istogramma del numero di biglie bianche disegnate per esperimento, scoprirai che avrai una curva a campana centrata su 10.

Ciò rappresenta la tua ipotesi del 10%: con qualsiasi borsa contenente 1000 biglie di cui il 10% sono bianche, se si estraggono casualmente 100 biglie, nella selezione troverai 10 biglie bianche, da o prendine 4 o giù di lì. Il valore p è tutto su questo "dare o prendere 4 o giù di lì". Diciamo facendo riferimento alla curva a campana creata in precedenza è possibile determinare che meno del 5% delle volte otterresti 5 o meno biglie bianche e un altro <5% delle volte conta 15 o più biglie bianche, ovvero> 90% del tempo la tua selezione di marmo 100 conterrà tra 6 e 14 marmi bianchi inclusi.

Ora supponendo che qualcuno stenda una busta di 1000 biglie con un numero sconosciuto di biglie bianche, abbiamo gli strumenti per rispondere a queste domande

i) Ci sono meno di 100 marmi bianchi?

ii) Ci sono più di 100 marmi bianchi?

iii) La confezione contiene 100 biglie bianche?

Basta estrarre 100 biglie dalla borsa e contare quanti di questo campione sono bianchi.

a) Se ci sono da 6 a 14 bianchi nel campione, non è possibile rifiutare l'ipotesi che ci siano 100 biglie bianche nella busta e che i corrispondenti valori p da 6 a 14 saranno> 0,05.

b) Se ci sono 5 o meno bianchi nel campione, puoi rifiutare l'ipotesi che ci siano 100 biglie bianche nella busta e che i corrispondenti valori di p per 5 o meno saranno <0,05. Ci si aspetterebbe che la borsa contenga <10% di biglie bianche.

c) Se ci sono 15 o più bianchi nel campione, puoi rifiutare l'ipotesi che ci siano 100 biglie bianche nella busta e che i corrispondenti valori p per 15 o più saranno <0,05. Ci si aspetterebbe che la borsa contenga> 10% di biglie bianche.

In risposta al commento di Baltimark

Dato l'esempio sopra, c'è un approssimativamente: -

Probabilità del 4,8% di ottenere 5 palline bianche o meno

Probabilità dell'1,85% di 4 o meno

0,55% di probabilità di 3 o meno

Probabilità dello 0,1% di 2 o meno

6,25% di probabilità di 15 o più

Probabilità del 3,25% di 16 o più

Probabilità dell'1,5% di 17 o più

0,65% di probabilità di 18 o più

0,25% di probabilità di 19 o più

Probabilità dello 0,1% di 20 o più

Probabilità dello 0,05% di 21 o più

Questi numeri sono stati stimati da una distribuzione empirica generata da una semplice routine di Monte Carlo in R e dai quantili risultanti della distribuzione di campionamento.

Ai fini della risposta alla domanda originale, supponi di disegnare 5 palline bianche, c'è solo una probabilità approssimativa del 4,8% che se la busta di marmo 1000 contenga davvero palline bianche al 10%, tireresti fuori solo 5 bianchi in un campione di 100. Ciò equivale a un valore di p <0,05. Ora devi scegliere tra

i) Ci sono davvero palline bianche al 10% nella borsa e sono stato "sfortunato" a pescare così poche

o

ii) Ho disegnato così poche palline bianche che non ci possono essere davvero palline bianche al 10% (respinge l'ipotesi di palline bianche al 10%)


Prima di tutto, questo è solo un grande esempio e non spiega davvero il concetto di valore p e statistica test. In secondo luogo, stai solo sostenendo che se ottieni meno di 5 o più di 15 biglie bianche, rifiuti l'ipotesi nulla. Qual è la tua distribuzione da cui stai calcolando queste probabilità? Questo può essere approssimato con una dist normale. centrato su 10, con una deviazione standard di 3. I criteri di rifiuto non sono abbastanza rigidi.
Baltimark,

Concordo sul fatto che questo è solo un esempio, ed è vero che ho appena scelto i numeri 5 e 15 per scopi illustrativi. Quando avrò tempo, posterò una seconda risposta, che spero sia più completa.
babelproofreader,

10

Ciò che il valore p non ti dice è quanto è probabile che l'ipotesi nulla sia vera. Nell'ambito del test convenzionale (Fisher) del test di significatività calcoliamo innanzitutto la probabilità di osservare i dati assumendo che l'ipotesi nulla sia vera, questo è il valore p. Sembra intuitivamente ragionevole quindi supporre che l'ipotesi nulla sia probabilmente falsa se i dati sono sufficientemente improbabili da essere osservati sotto l'ipotesi nulla. Questo è del tutto ragionevole. Gli statistici usano trandizionalmente una soglia e "rifiutano l'ipotesi nulla al livello di significatività del 95%" se (1 - p)> 0,95; tuttavia questa è solo una convenzione che si è dimostrata ragionevole nella pratica - non significa che ci sia meno del 5% di probabilità che l'ipotesi nulla sia falsa (e quindi una probabilità del 95% che l'ipotesi alternativa sia vera).

Immaginando una funzione f () che mappa il valore p sulla probabilità che l'ipotesi alternativa sia vera. Sarebbe ragionevole affermare che questa funzione sta diminuendo rigorosamente (in modo tale che più è probabile che le osservazioni sotto l'ipotesi nulla, meno probabile sia vera l'ipotesi alternativa) e che dia valori compresi tra 0 e 1 (dato che fornisce una stima di probabilità). Tuttavia, questo è tutto ciò che sappiamo di f (), quindi mentre esiste una relazione tra p e la probabilità che l'ipotesi alternativa sia vera, non è calibrata. Ciò significa che non possiamo usare il valore p per fare affermazioni quantitative sulla plausibilità delle ipotesi di nulll e alternatve.

Avvertenza: non è proprio nel quadro del frequentista parlare della probabilità che un'ipotesi sia vera, in quanto non è una variabile casuale - è vera o no. Quindi, dove ho parlato della probabilità della verità di un'ipotesi, sono implicitamente passato a un'interpretazione bayesiana. Non è corretto mescolare bayesiano e frequentista, tuttavia c'è sempre la tentazione di farlo poiché ciò che vogliamo veramente è un'indicazione quantitativa della plausibilità / probabilità relativa delle ipotesi. Ma questo non è ciò che fornisce il valore p.


7

Nelle statistiche non si può mai dire che qualcosa è assolutamente certo, quindi gli statistici usano un altro approccio per valutare se un'ipotesi è vera o no. Tentano di respingere tutte le altre ipotesi che non sono supportate dai dati.

Per fare questo, i test statistici hanno un'ipotesi nulla e un'ipotesi alternativa. Il valore p riportato da un test statistico è la probabilità del risultato dato che l'ipotesi nulla era corretta. Ecco perché vogliamo piccoli valori p. Più piccoli sono, meno probabile sarebbe il risultato se l'ipotesi nulla fosse corretta. Se il valore p è abbastanza piccolo (cioè, è molto improbabile che si verifichi il risultato se l'ipotesi nulla fosse corretta), allora l'ipotesi nulla viene respinta.

In questo modo, ipotesi nulle possono essere formulate e successivamente respinte. Se l'ipotesi nulla viene respinta, si accetta l'ipotesi alternativa come la migliore spiegazione. Ricorda però che l'ipotesi alternativa non è mai certa, poiché l'ipotesi nulla avrebbe potuto, per caso, generare i risultati.


Pr(Tt|H0)Pr(T=t|H0)

5

Sono un po 'diffidente nel rilanciare il vecchio argomento, ma sono saltato da qui , quindi inserisco questo come risposta alla domanda nel link.

Il valore p è un termine concreto, non dovrebbe esserci spazio per incomprensioni. Ma è in qualche modo mistico che le traduzioni colloquiali della definizione di valore p conducano a diverse interpretazioni errate. Penso che la radice del problema sia nell'uso delle frasi "almeno avverse all'ipotesi nulla" o "almeno estreme come quella nei dati del campione" ecc.

Ad esempio, dice Wikipedia

... il valore p è la probabilità di ottenere i risultati del campione osservati (o un risultato più estremo) quando l'ipotesi nulla è effettivamente vera.

p

Penso che sia meglio lasciare il "risultato più estremo" a qualcosa come il discorso indiretto . Quindi, la mia opinione è

Il valore p è la probabilità di vedere ciò che vedi in un "mondo immaginario" in cui l'ipotesi nulla è vera.

xμ0=20N(20,1)

x
#[1] 20.82600 19.30229 18.74753 18.99071 20.14312 16.76647
#[7] 18.94962 17.99331 19.22598 18.68633

t0=nX¯-μ0S

sqrt(10) * (mean(x) - 20) / sd(x)  
#-2.974405

|t0|t0~t(9)

p-vun'lue=Pr(|t0|2.97)=0.01559054
2*(1 - pt(2.974405, 9))
#[1] 0.01559054

Poiché il valore di p è piccolo, è molto improbabile che il campione xsia stato disegnato nel mondo ipotizzato. Pertanto, concludiamo che è molto improbabile che il mondo ipotizzato fosse in realtà il mondo reale.


2
+1, ma quando scrivi "probabilità di vedere ciò che vedi" e ometti la parte "più estrema", questa frase diventa strettamente falsa (e potenzialmente fuorviante, anche se forse meno confusa). Non è la probabilità di vedere ciò che vedi (di solito è zero). È la probabilità di vedere ciò che vedi "o più estremo". Anche se questo potrebbe essere un po 'confuso per molti, è ancora cruciale (e si può discutere all'infinito sul grado di soggettività che si nasconde dietro questa formulazione "più estrema").
ameba,

@amoeba Ho pensato che, se fornito un esempio adeguato, poteva servire da proxy per "ottenere i risultati del campione osservato (o un risultato più estremo)". Forse è necessaria una migliore formulazione.
Khashaa,

1
Stavo per fare la stessa osservazione di @amoeba; la parte "o più estrema" è gestita bene dall'esempio delle altezze degli studenti e delle risposte del tea party, ma non credo che nessuna risposta in questo thread abbia colpito una chiara spiegazione generale di essa, in particolare una che copre diverse ipotesi alternative. Concordo con questa risposta, suggerendo che la parte "o più estrema" è un punto critico per molti studenti.
Silverfish,

@Silverfish: e non solo studenti. Quanti rantisti Bayesian-vs-frequentisti ho letto per discutere della questione soggettività / obiettività di questo pezzo "più estremo"!
ameba,

1
@ Argento Sono d'accordo con le tue critiche e ho pubblicato una risposta nel tentativo di affrontarle. "O più estremo" è il nocciolo della questione.
whuber

4

Trovo utile seguire una sequenza in cui spieghi i concetti nel seguente ordine: (1) Il punteggio z e le proporzioni sopra e sotto il punteggio z assumono una curva normale. (2) La nozione di una distribuzione campionaria e il punteggio z per un dato campione indicano quando è nota la deviazione standard della popolazione (e quindi il test z di un campione) (3) Il test t di un campione e la probabilità di un esempio medio quando la deviazione standard della popolazione è sconosciuta (piena di storie sull'identità segreta di un certo statistico industriale e perché Guinness è buono per le statistiche). (4) Il test t a due campioni e la distribuzione campionaria delle differenze medie. La facilità con cui gli studenti introduttivi afferrano il test t ha molto a che fare con le basi che sono state preparate per questo argomento.

/ * istruttore della modalità studenti terrorizzati disattivato * /


4

Ho anche trovato le simulazioni utili per l'insegnamento.

nN(μ,1)σ2=1H0:μ=μ0 rispetto a un'alternativa sul lato sinistro .

tTSTAT: =n(X¯-μ0)N(0,1)H0pΦ(TSTAT)pnorm(tstat)

N(μ0,1)μ0=2nullMeans

# p value
set.seed(1)
reps <- 1000
n <- 100      
mu <- 1.85 # true value
mu_0 <- 2 # null value
xaxis <- seq(-3, 3, length = 100)

X <- rnorm(n,mu)

nullMeans <- counter <- rep(NA,reps)

yvals <- jitter(rep(0,reps),2)

for (i in 1:reps)
{  
  tstat <- sqrt(n)*(mean(X)-mu_0) # test statistic, N(0,1) under the given assumptions

  par(mfrow=c(1,3))
  plot(xaxis,dnorm(xaxis),ylab="null distribution",xlab="possible test statistics",type="l")
  points(tstat,0,cex=2,col="salmon",pch=21,bg="salmon")

  X_null <- rnorm(n,mu_0) # generate data under H_0
  nullMeans[i] <- mean(X_null)

  plot(nullMeans[1:i],yvals[1:i],col="blue",pch=21,xlab="actual means and those generated under the null",ylab="", yaxt='n',ylim=c(-1,1),xlim=c(1.5,2.5))
  abline(v=mu_0,lty=2)
  points(mean(X),0,cex=4,col="salmon",pch=21,bg="salmon")

  # counts 1 if sample generated under H_0 is more extreme:
  counter[i] <- (nullMeans[i] < mean(X)) # i.e. we test against H_1: mu < mu_0
  barplot(table(counter[1:i])/i,col=c("green","red"),xlab="more extreme mean under the null than the mean actually observed")

  if(i<10) locator(1)
}
mean(counter)
pnorm(tstat)

0

Cosa significa un "valore p" in relazione all'ipotesi che viene testata?

In senso ontologico (che cos'è la verità?), Non significa nulla . Qualsiasi test di ipotesi si basa su ipotesi non testate . Questo di solito fa parte del test stesso, ma fa anche parte di qualsiasi modello in uso (ad es. In un modello di regressione). Dal momento che stiamo semplicemente assumendo questi, non possiamo sapere se il motivo per cui il valore p è inferiore alla nostra soglia è perché il null è falso. È un non sequitur dedurre incondizionatamente che a causa di un basso valore p dobbiamo respingere il valore nullo. Ad esempio, qualcosa nel modello potrebbe essere sbagliato.

In senso epistemologico (cosa possiamo imparare?), Significa qualcosa . Acquisisci conoscenze a condizione che le premesse non testate siano vere. Dato che (almeno fino ad ora) non possiamo provare ogni edificio della realtà, tutta la nostra conoscenza sarà necessariamente condizionata. Non arriveremo mai alla "verità".


-1

Penso che esempi che coinvolgono marmi o monete o la misurazione dell'altezza possano andare bene per la pratica della matematica, ma non sono buoni per costruire l'intuizione. Agli studenti universitari piace mettere in discussione la società, giusto? Che ne dici di usare un esempio politico?

Supponiamo che un candidato politico abbia condotto una campagna promettendo che alcune politiche aiuteranno l'economia. È stata eletta, ha messo in atto la politica e 2 anni dopo, l'economia è in piena espansione. È in attesa di rielezione e afferma che la sua politica è la ragione della prosperità di tutti. Dovresti rieleggerla?

Il cittadino riflessivo dovrebbe dire "beh, è ​​vero che l'economia sta andando bene, ma possiamo davvero attribuire questo alla tua politica?" Per rispondere veramente a questa domanda, dobbiamo considerare la domanda "l'economia avrebbe fatto bene negli ultimi 2 anni senza di essa?" Se la risposta è sì (ad esempio l'economia è in forte espansione a causa di un nuovo sviluppo tecnologico indipendente), respingiamo la spiegazione dei dati da parte del politico.

Cioè, per esaminare un'ipotesi (la politica ha aiutato l'economia), dobbiamo costruire un modello del mondo in cui tale ipotesi è nulla (la politica non è mai stata attuata). Quindi facciamo un previsione secondo quel modello. Chiamiamo la probabilità di osservare questi dati in quel mondo alternativo come valore p . Se il valore p è troppo alto, allora non siamo convinti dall'ipotesi: la politica non ha fatto differenza. Se il valore p è basso, ci fidiamo dell'ipotesi: la politica era essenziale.


1
Non sono d'accordo con il fatto che p sia definito come "Chiamiamo la probabilità di osservare questi dati in quel mondo alternativo il valore p" e anche la forza della conclusione che viene disegnata (in particolare l'incapacità di respingere il nulla).
Pesce rosso

@Silverfish Potresti elaborare? Probabilmente sarebbe più corretto chiamare il valore p la probabilità di rendere quell'osservazione O un'osservazione più estrema. Ma sembra che tu abbia una critica più profonda.
cgreen

1
Dato che la domanda originale è chiedersi quale sia un valore p, ho pensato che ottenere quella definizione chiaramente fosse importante. Il solo fatto di dire "più estremo" non è di per sé molto utile senza spiegare cosa potrebbe significare "più estremo" - questa è una debolezza della maggior parte delle risposte in questo thread, penso. Solo la risposta di Whuber e il "test del tè" sembrano davvero spiegare perché anche il "più estremo" sia importante.
Silverfish

Ho anche sentito che le tue conclusioni sono state formulate troppo fortemente. Se rifiutiamo il nulla, abbiamo prove significative contro di esso, ma non sappiamo che è falso. Quando non riusciamo a respingere il nulla, ciò non significa certamente che il valore nullo sia vero (anche se potrebbe anche essere). Come commento più generale ho la sensazione che il test che stai descrivendo, in termini piuttosto astratti, non sia probabilmente chiaro a uno studente che sta solo imparando come eseguire un test. La mancanza di una statistica test ben definito non si sposa bene con la domanda iniziale che chiede come interpretare t statistica t troppo.
Silverfish

Una caratteristica di questa risposta che mi piace molto è la chiara spiegazione che i valori p sono calcolati usando un modello nullo, anche se non riteniamo (soggettivamente) che il modello nullo sia effettivamente vero. Penso che le statistiche dei test di fatto calcolate secondo un modello siano un punto chiave con cui molti studenti lottano.
Silverfish

-1

p

p -value- Una statisticaX

0c1,FX|H0(inf{X:FX|H0(X)c})=c
FX|H0XH0

X

  1. p[0,1] e
  2. [0,1]p

p


P

@whuber Grazie per l'input. Ho modificato la definizione e ora dovrebbe avere più senso!
nalzok,

1
X[0,1].

Ecco un esempio che potresti trovare interessante. La famiglia di distribuzione è Uniform (θ,θ+1)θR,θ=0,X=(X1,...,Xn).X(X)=X1.[0,1]H0:n=1X1=-2:-2

-4

Il valore p non è così misterioso come la maggior parte degli analisti ritiene che sia. È un modo per non dover calcolare l'intervallo di confidenza per un test t ma semplicemente determinare il livello di confidenza con il quale un'ipotesi nulla può essere respinta.

ILLUSTRAZIONE. Esegui un test. Il valore p è 0,1866 per la variabile Q, 0,0023 per la variabile R. (Questi sono espressi in%).

Se si sta eseguendo un test con un livello di confidenza del 95% per rifiutare l'ipo null;

per Q: 100-18.66 = 81.34%

per R: 100-0,23 = 99,77%.

A un livello di confidenza del 95%, Q dà un rifiuto dell'81,34% da respingere. Questo scende al di sotto del 95% ed è inaccettabile. ACCETTA NULL.

R dà il 99,77% di confidenza per rifiutare null. Chiaramente sopra il 95% desiderato. Pertanto rifiutiamo il nulla.

Ho appena illustrato la lettura del valore p attraverso un "modo inverso" di misurarlo fino al livello di confidenza al quale rifiutiamo l'ipo ipo.


6
QR

@cardinal sottolinea un punto importante. Non accetterete il nulla.
Patrick Coulombe,

-8

****** Il valore p nel test delle ipotesi misura la sensibilità del test. Più basso è il valore p maggiore è la sensibilità. se il livello di significatività è impostato su 0,05, il valore p di 0,0001 indica un'alta probabilità che i risultati del test siano corretti ******


6
-1 Questo è chiaramente sbagliato. Potresti prima leggere le risposte con il voto più alto.
Momo,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.