Per quanto riguarda i valori p, perché 1% e 5%? Perché non il 6% o il 10%?


80

Per quanto riguarda il p, mi chiedo perché l' % e il % sembrano essere il gold standard per . Perché non altri valori, come il % o il %?15"statistical significance"610

C'è una ragione matematica fondamentale per questo, o è solo una convenzione ampiamente diffusa?


2
E se tutti avessero avuto 12 dita? Contiamo la base 12, non la base 10. Ciò significa che l '"1%" sarebbe 1/144 o 0,0069444444.
Contango,

Risposte:


77

Se controlli i riferimenti sotto troverai molte variazioni sullo sfondo, sebbene ci siano alcuni elementi comuni.

Tali numeri si basano almeno in parte su alcuni commenti di Fisher, dove ha affermato

(mentre discute un livello di 1/20)

È conveniente prendere questo punto come limite nel giudicare se una deviazione deve essere considerata significativa o meno. Le deviazioni che superano il doppio della deviazione standard sono quindi formalmente considerate significative

Fisher, RA (1925) Metodi statistici per i ricercatori , pag. 47

D'altra parte, a volte era più ampio:

Se uno su venti non sembra abbastanza alto, possiamo, se lo preferiamo, tracciare la linea a uno su cinquanta (il punto 2 per cento) o uno su cento (il punto 1 per cento). Personalmente, lo scrittore preferisce fissare un basso livello di significatività al 5%, e ignorare del tutto tutti i risultati che non riescono a raggiungere questo livello. Un fatto scientifico dovrebbe essere considerato come stabilito sperimentalmente solo se un esperimento correttamente progettato raramente non riesce a dare questo livello di significato.

Fisher, RA (1926) La disposizione degli esperimenti sul campo . Journal of the Ministry of Agriculture, p. 504

Fisher usava anche il 5% per uno dei tavoli del suo libro, ma la maggior parte degli altri tavoli aveva una maggiore varietà di livelli di significatività

Alcuni dei suoi commenti hanno suggerito approcci più o meno rigorosi (ovvero livelli alfa inferiori o superiori) in diverse situazioni.

Quel tipo di discussione sopra ha portato alla tendenza a produrre tabelle incentrate sui livelli di significatività del 5% e 1% (e talvolta con altri, come 10%, 2% e 0,5%) per mancanza di altri valori "standard" da utilizzare.

Tuttavia, in questo articolo , Cowles e Davis suggeriscono che l'uso del 5% - o almeno qualcosa di simile ad esso - risale al commento di Fisher.

In breve, il nostro uso del 5% (e in misura minore dell'1%) è una convenzione praticamente arbitraria, anche se chiaramente molte persone sembrano ritenere che per molti problemi siano nel giusto tipo di campo da baseball.

Non c'è motivo per cui un valore particolare debba essere usato in generale.

Ulteriori riferimenti:

Dallal, Gerard E. (2012). Il piccolo manuale di pratica statistica. - Perché 0,05?

Stigler, Stephen (dicembre 2008). "Fisher e il livello del 5%". Chance 21 (4): 12. disponibile qui

(Tra loro, ottieni un bel po 'di background - sembra che tra loro ci sia un buon motivo per pensare a livelli di significatività almeno nel campo generale del 5% - diciamo tra il 2% e il 10% - era stato più o meno in l'aria per un po '.)


36

Devo dare una non risposta (come qui ):

"... sicuramente, Dio ama la .06 quasi quanto la .05. Può esserci qualche dubbio che Dio veda la forza dell'evidenza a favore o contro il nulla come una funzione abbastanza continua della grandezza di p?" (P.1277)

Rosnow, RL e Rosenthal, R. (1989). Procedure statistiche e giustificazione della conoscenza nelle scienze psicologiche. Psicologo americano , 44 (10), 1276-1284. PDF

L'articolo contiene alcune discussioni in più su questo tema.


9
E che dire di 0,055? :)
nico,

33
@nico A nessuno piace 0.055
Fomite

18

Credo che ci sia della psicologia di base per il 5%. Devo dire che non ricordo dove l'ho preso, ma ecco l'esercizio che facevo con ogni classe di introduzione agli studenti universitari.

Immagina che uno sconosciuto ti si avvicini in un pub e ti dica: "Ho una moneta parziale che produce teste più spesso delle code. Ti piacerebbe comprarne una da me, in modo da poter scommettere con i tuoi amici e fare soldi con quello?" Accetti con esitazione di dare un'occhiata e lancia la moneta per 10 volte. Domanda : quante volte deve sbarcare testa / croce per convincerti che è di parte?

Poi prendo uno spettacolo di mani: chi sarebbe convinto che la moneta sia distorta se la divisione fosse 5/5? 4/6? 3/7? 2/8? 1/9? 0/10? Bene, i primi due o tre non convincerebbero nessuno, e l'ultimo convincerebbe tutti; 2/8 e 1/9 convincerebbero la maggior parte delle persone, però. Ora, se cerchi la tabella binomiale, 2/8 è il 5,5% e 1/9 è dell'1%. QED.

Se qualcuno sta insegnando un corso di introduzione al momento, ti incoraggio anche a eseguire questo esercizio e a pubblicare i tuoi risultati come commenti, in modo da poter accumulare un gran numero di risultati di meta-analisi e pubblicarli almeno in The American L'angolo di insegnamento dello statistico . Sentiti libero di variare le condizioni e unilaterale rispetto a due lati!n

In un'altra risposta, Glen_b cita Fisher che sta discutendo se questi numeri magici debbano essere modificati a seconda di quanto sia grave il problema, quindi per favore non farlo "C'è un nuovo trattamento per la leucemia di tua sorella, ma la curerebbe 3 mesi o uccidila in 3 giorni, quindi lanciamo alcune monete "- sembrerebbe sciocco come il famigerato fumetto di xkcd che nemmeno a Andrew Gelman piaceva tanto.

Parlando di monete e Gelman, TAS aveva un articolo molto curioso di Gelman e Nolan intitolato "Puoi caricare un dado, ma non puoi fare una moneta" , sostenendo che la moneta, lanciata in aria o lanciata su un da tavolo, passerà circa la metà del tempo a testa in su, e l'altra volta, a coda, quindi è difficile trovare un meccanismo fisico per scartare seriamente una moneta. (Questa era chiaramente una ricerca di origine pub, mentre sperimentavano con tappi di bottiglia di birra.) D'altra parte, caricare un dado è una cosa relativamente facile da fare, e ho dato ai miei studenti un esercizio in questo con circa 1 cm / metà pollici cubi di legno da un negozio di hobby locale e carta vetrata chiedendo loro di caricare il dado e dimostrarmi che è caricato - che è stato un esercizio nel test Pearson per le proporzioni e il suo potere.χ2


3
I maghi possono spesso controllare il lancio delle monete. Statistico-matematico-mago (permuto al gusto) Persi Diaconis è ben noto per questo (e molto, molto altro).
Nick Cox,

@StasK - Alcuni anni fa, ho posto una domanda simile a quella del tuo secondo paragrafo sopra. Ecco il link: stats.stackexchange.com/questions/7036/…
bill_080

fattura, hai chiesto informazioni sul potere, essenzialmente. Questa domanda riguarda il livello del test.
StasK

9

Il 5% sembra essere stato arrotondato dal 4,56% da Fisher, corrispondente a "le aree di coda della curva oltre la media più tre o meno tre probabili errori" (Hurlbert & Lombardi, 2009).

Un altro elemento della storia sembra essere la riproduzione di tavoli con valori critici (Pearson et al., 1990; Lehmann, 1993). A Fisher non fu concesso da Pearson il permesso di usare i suoi tavoli (probabilmente sia per il marketing di Pearson della sua stessa pubblicazione (Hurlbert e Lombardi, 2009) sia per la natura problematica della loro relazione.

Hurlbert, SH e Lombardi, CM (2009, ottobre). Crollo finale del quadro teorico decisionale Neyman-Pearson e nascita del neoFisherian. In Annales Zoologici Fennici (Vol. 46, n. 5, pagg. 311-349). Editoria zoologica e botanica finlandese

Lehmann, EL (1993). Le teorie di Fisher, Neyman-Pearson per verificare le ipotesi: una teoria o due? Journal of American Statistical Association, 88 (424), 1242-1249.

Pearson, ES, Gosset, WS, Plackett, RL e Barnard, GA (1990). Studente: una biografia statistica di William Sealy Gosset. Oxford University Press, Stati Uniti.

Vedi anche: Gigerenzer, G. (2004). Statistiche insensate. The Journal of Socio-Economics, 33 (5), 587-606.

Hubbard, R. e Lindsay, RM (2008). Perché i valori di P non sono una misura utile dell'evidenza nei test di significatività statistica. Teoria e psicologia, 18 (1), 69-88.


7

Mi sembra che la risposta sia più nella teoria dei giochi della ricerca che nelle statistiche. Avere l'1% e il 5% bruciato nella coscienza generale significa che i ricercatori non sono effettivamente liberi di scegliere livelli di significatività adatti alle loro predisposizioni. Supponiamo che abbiamo visto un documento con un valore di p di 0,055 e in cui il livello di significatività era stato fissato al 6%: le domande sarebbero state poste. 1% e 5% forniscono una forma di impegno credibile.


7
Forse, ma pensi che i ricercatori non manipolino le regressioni, non utilizzino test ripetuti, ecc. Per spremere sotto il livello stabilito del 5%, ad esempio ...
Kirk,

Certo che è possibile, e probabilmente succede. Ma la domanda era circa l'1% e il 5%. Mi sembra che sia un tentativo di stabilire una convenzione sociale su quando accettare qualcosa di così significativo. Questi sono arbitrari, ma sono arbitrari per i ricercatori come gruppo piuttosto che arbitrari per i singoli ricercatori.
congetture

3
D'accordo, stavo solo sottolineando che avere livelli di significatività convenzionali non significa che le domande non dovrebbero essere poste, come hai dedotto nel tuo post. Solo perché un documento presenta un risultato significativo a livello convenzionale non significa che sia credibile!
Kirk,

Ah, stavo usando credibile nel senso della teoria dei giochi (o tentando di farlo). Come in te, rendi credibile una minaccia se non è qualcosa da cui puoi tornare indietro o cambiare idea in seguito. In questo caso i singoli ricercatori avrebbero difficoltà a scendere su qualche altra soglia arbitraria.
congetture

2
Ciò a cui @kirk si riferisce sicuramente accade. Si chiama -hacking . p
Nick Stauner,

6

La mia ipotesi personale è che 0,05 (o 1 su 20) sia associato al valore at / z di (molto vicino a) 2. Usare 2 è carino, perché è molto facile individuare se il risultato è statisticamente significativo. Non ci sono altre confluenze di numeri rotondi.


7
Dubito che sia corretto. Certamente ci sono "confluenze di numeri tondi": perché non usare un valore critico di o , per esempio? Inoltre, nessuno stava sfuggendo alla creazione di ampie tabelle di valori critici un secolo fa, quindi è difficile capire da dove provenga la motivazione. Z = 3Z=1Z=3
whuber

9
Al contrario, danno dei bei numeri! Per una distribuzione normale le probabilità sono circa , , e per . Tutte queste approssimazioni hanno una precisione migliore di una cifra significativa - e "1 su 20" è il peggiore del gruppo (1 su 22 sarebbe molto più vicino alla verità). 1 / 20 1 / 4001/31/201/400z = 1 , 2 , 3 , 41/16000z=1,2,3,4
whuber

1
:) Hmm ... buon punto. Ma devi essere limitato da ciò che useresti come cut-off - 1/3 è un po 'lassista, 1/400 un tocco rigoroso.
Jeremy Miles,

10
È esattamente quello a cui sto arrivando, Jeremy: la tradizione del 5% e dell'1% si basa, almeno in parte, su un concetto di rischio statistico ("un po 'rilassato" o un "tocco rigoroso") e non originariamente derivano da qualsiasi pratica regola pratica.
whuber

1
@whuber L'uso di dà circa e non puoi fare molto di più! 1 / πZ=11/π
James,

6

L'unico numero corretto è .04284731

... che è una risposta irriverente intesa nel senso che la scelta di 0,05 è essenzialmente arbitraria. Di solito riporto solo il valore p, piuttosto che ciò che il valore p è maggiore o minore di.

Il "significato" è una variabile continua e, a mio avviso, discretizzarla spesso fa più male che bene. Voglio dire, se p = .13, hai più fiducia di se p = .21 e meno di se p = .003


Bene, ai tempi dei tavoli uno era più o meno costretto a discretizzare ... dato che i tavoli sono usati nell'insegnamento, questo continua ...
kjetil b halvorsen,

@kjetilbhalvorsen bene i produttori di tavoli hanno chiaramente sbagliato a non scegliere .04284731 per i loro valori critici.
generic_user

2

Questa è un'area di verifica delle ipotesi che mi ha sempre affascinato. Soprattutto perché un giorno qualcuno ha deciso un numero arbitrario che dicotomizzava la procedura di test e da allora la gente raramente la mette in discussione.

Ricordo di avere un docente che ci diceva di non riporre troppa fiducia nel test Staiger e Stock delle variabili strumentali (in cui l'F-stat dovrebbe essere superiore a 10 nella regressione della prima fase per evitare deboli problemi dello strumento) perché il numero 10 era un scelta completamente arbitraria. Ricordo di aver detto "Ma non è quello che facciamo con i test di ipotesi regolari ?????"


5
Questo è inteso come una risposta, @EconStats? Sembra più un commento. Ricorda che il CV non è inteso come forum di discussione. Ti dispiacerebbe rendere la risposta con questo post più saliente?
gung - Ripristina Monica

1
Mi dispiace @gung. Immagino che il mio punto fosse che, nonostante alcune delle prove fornite dagli altri utenti, penso ancora che la risposta più probabile sia che abbiamo un sistema di numerazione basato su decimali ed è ancora usato oggi per trovare numeri arbitrari per test di ipotesi ad esempio il test Staiger e Stock F che ho citato.
EconStats,

1
Come il poster originale di questa domanda, credo che questo si qualifichi sicuramente come una risposta. Grazie!
Contango,

0

Perché 1 e 5? Perché si sentono bene.

Sono sicuro che ci sono studi sul valore emotivo e sulla salienza cognitiva di numeri specifici, ma possiamo capire la scelta di 1 e 5 senza dover ricorrere alla ricerca.

Le persone che hanno creato le statistiche di oggi sono nate, cresciute e vivono in un mondo decimale. Naturalmente ci sono sistemi di conteggio non decimali, e contare fino a dodici usando le falangi è possibile ed è stato fatto, ma non è ovvio allo stesso modo dell'uso delle dita (che sono quindi chiamate "cifre", come i numeri ). E mentre tu (e Fisher) potreste conoscere sistemi di conteggio non decimali, il sistema decimale è ed è stato il sistema di conteggio predominante vostro (e del mondo di Fisher) negli ultimi cento anni.

Ma perché i numeri cinque e uno sono speciali? Perché entrambe sono le divisioni più salienti per natura dei dieci di base: un dito, una mano (o: una metà).

Non devi nemmeno andare fino a concettualizzare le frazioni per passare da dieci a uno e cinque. Quello è semplicemente lì, proprio come il tuo dito è semplicemente lì. E dimezzare qualcosa è un'operazione molto più semplice che dividerla in qualsiasi altra proporzione. Tagliare qualcosa in due parti non richiede pensiero, mentre dividere per tre o quattro è già piuttosto complicato.

La maggior parte dei sistemi valutari in valuta ha monete e banconote con valori come 1, 2, 5, 10, 20, 50, 100, 200, 500, 1000. Alcuni sistemi valutari non hanno 2, 20 e 200, ma quasi tutti hanno inizio in 1 e 5. Allo stesso tempo, la maggior parte dei sistemi valutari non ha una moneta o una banconota che inizia tra 3, 4, 6, 7, 8 o 9. Interessante, vero? Ma perché è così?

Perché hai sempre bisogno di dieci dei 1 o due dei 5 (o cinque dei 2) per arrivare al prossimo ordine più grande. Calcolare con il denaro è molto semplice: dieci volte o il doppio. Solo due tipi di operazioni. Ogni moneta che hai è la metà o un decimo della moneta del prossimo ordine. Quei numeri si moltiplicano e si sommano facilmente e bene.

Quindi l'1 e il 5 sono stati profondamente radicati, fin dalla prima infanzia, in Fisher e chiunque altro abbia scelto i livelli di significatività come le divisioni più semplici, più semplici e più elementari di 10. Ogni altro numero ha bisogno di un argomento, mentre questi i numeri sono semplicemente lì.

In assenza di un modo oggettivo per calcolare il livello di significatività appropriato per ogni singolo set di dati, l'uno e il cinque sembrano giusti.


"senza dover ricorrere alla ricerca". Mentre penso che la risposta sia buona, questo la mette saldamente nel territorio dell'opinione pubblica. Presterebbe molta credibilità e renderebbe la risposta più autorevole se ci fossero fonti a sostegno di ciò.
Momo,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.