Risposte:
La mia opinione è che non dipende (e dovrebbe) dipendere dal campo di studio. Ad esempio, potresti benissimo lavorare a un livello di significatività inferiore a se, ad esempio, stai cercando di replicare uno studio con risultati storici o ben consolidati (posso pensare a diversi studi sull'effetto Stroop , che avevano portato ad alcune controversie negli ultimi anni). Ciò equivale a considerare una "soglia" più bassa nel quadro classico di Neyman-Pearson per verificare l'ipotesi. Tuttavia, il significato statistico e pratico (o sostanziale) è un'altra questione.
Sidenote . Il "sistema stellare" sembra aver dominato le ricerche scientifiche già negli anni '70, ma vedi The Earth Is Round (p <.05), di J. Cohen ( American Psychologist , 1994, 49 (12), 997-1003), nonostante il fatto che a ciò che spesso vogliamo sapere vengano dati i dati che ho osservato, qual è la probabilità che sia vero? Ad ogni modo, c'è anche una bella discussione su " Why P = 0.05? ", Di Jerry Dallal.
Potrebbe essere raro per chiunque usare un livello alfa pre-specificato inferiore a, diciamo, 0,01, ma non è così raro che le persone dichiarino un alfa implicita inferiore a 0,01 nella convinzione errata che un valore P osservato inferiore a 0,01 è uguale a un alfa Neyman-Pearson inferiore a 0,01.
I valori P di Fisher non sono uguali o intercambiabili con i tassi di errore di Neyman-Pearson. non significa meno che uno non abbia deciso di usare come livello critico per la significatività quando viene progettato l'esperimento. Se avessi considerato significativo, allora significa che esiste una probabilità di un reclamo falso positivo.α = 0,0023 0,0023 P = 0,05 P = 0,0023 0,05
Dai un'occhiata a Hubbard et al. Confusione su misure di evidenza (p) contro errori (α) nei test statistici classici. The American Statistician (2003) vol. 57 (3)
Non conosco molto bene questa letteratura, ma credo che alcuni fisici usino soglie molto più basse nei test statistici, ma ne parlano in modo leggermente diverso. Ad esempio, se una misura è tre deviazioni standard dalla previsione teorica, viene descritta come una deviazione "tre sigma". Fondamentalmente, questo significa che il parametro di interesse è statisticamente diverso dal valore previsto nel test az con α = .01. Due sigma equivalgono all'incirca a α = .05 (in realtà sarebbe 1,96 σ). Se non sbaglio, il livello di errore standard in fisica è 5 sigma, che sarebbe α = 5 * 10 ^ -7
Inoltre, nelle neuroscienze o nell'epidemiologia, sembra sempre più comune eseguire regolarmente alcune correzioni per confronti multipli. Il livello di errore per ogni singolo test può quindi essere inferiore a p <.01
Come notato da Gaël Laurans sopra le analisi statistiche che si imbattono nel problema del confronto multiplo tendono ad usare soglie più conservative. Tuttavia, in sostanza usano 0,05, ma moltiplicato per il numero di test. È ovvio che questa procedura (correzione di Bonferroni) può portare rapidamente a valori p incredibilmente piccoli. Ecco perché le persone nel passato (nelle neuroscienze) si sono fermate a p <0,001. Al giorno d'oggi vengono utilizzati altri metodi di correzione comparativa multipla (vedi teoria dei campi casuale di Markov).