Esempi di studi che utilizzano p <0,001, p <0,0001 o anche valori p inferiori?


11

Vengo dalle scienze sociali, dove p <0,05 è praticamente la norma, con anche p <0.1 e p <0.01, ma mi chiedevo: quali campi di studio, se presenti, usano valori p inferiori come un comune standard?

Risposte:


9

La mia opinione è che non dipende (e dovrebbe) dipendere dal campo di studio. Ad esempio, potresti benissimo lavorare a un livello di significatività inferiore a se, ad esempio, stai cercando di replicare uno studio con risultati storici o ben consolidati (posso pensare a diversi studi sull'effetto Stroop , che avevano portato ad alcune controversie negli ultimi anni). Ciò equivale a considerare una "soglia" più bassa nel quadro classico di Neyman-Pearson per verificare l'ipotesi. Tuttavia, il significato statistico e pratico (o sostanziale) è un'altra questione.p<0.001

Sidenote . Il "sistema stellare" sembra aver dominato le ricerche scientifiche già negli anni '70, ma vedi The Earth Is Round (p <.05), di J. Cohen ( American Psychologist , 1994, 49 (12), 997-1003), nonostante il fatto che a ciò che spesso vogliamo sapere vengano dati i dati che ho osservato, qual è la probabilità che sia vero? Ad ogni modo, c'è anche una bella discussione su " Why P = 0.05? ", Di Jerry Dallal.H0


Per favore, correggi il mio treno di pensieri: alcuni campi potrebbero focalizzarsi, per esempio, sull'esposizione biochimica, e quindi vogliono usare p <0,001 per prevenire qualsiasi errore di tipo I che potrebbe portare a rischi per la salute. Inoltre, lungo questo articolo di Am Psych , ricordo anche un grande studio in Am J di Sociol o in una delle riviste di scienze sociali che seguo. Il mio preferito è, ovviamente, Ziliak e McCloskey .
P.

1
Ciò che descrivi qui suona al contrario. Sarei preoccupato per gli errori di tipo II, dicendo che qualcosa non c'è quando è, con esposizione biochimica. In tal caso potrei impostare l'alfa più in alto, non in basso.
John,

Stavo lavorando supponendo che il test avrebbe il seguente formato: "Valutiamo se la gravidanza è correlata alla terapia ormonale sostitutiva" (in tal caso, un errore di tipo I è più grave di un errore di tipo II, ma forse questo progetto non è standard).
P.

7

Potrebbe essere raro per chiunque usare un livello alfa pre-specificato inferiore a, diciamo, 0,01, ma non è così raro che le persone dichiarino un alfa implicita inferiore a 0,01 nella convinzione errata che un valore P osservato inferiore a 0,01 è uguale a un alfa Neyman-Pearson inferiore a 0,01.

I valori P di Fisher non sono uguali o intercambiabili con i tassi di errore di Neyman-Pearson. non significa meno che uno non abbia deciso di usare come livello critico per la significatività quando viene progettato l'esperimento. Se avessi considerato significativo, allora significa che esiste una probabilità di un reclamo falso positivo.α = 0,0023 0,0023 P = 0,05 P = 0,0023 0,05P=0.0023α=0.00230.0023P=0.05P=0.00230.05

Dai un'occhiata a Hubbard et al. Confusione su misure di evidenza (p) contro errori (α) nei test statistici classici. The American Statistician (2003) vol. 57 (3)


Capisco la distinzione, anche se probabilmente sto commettendo l'errore di routine. Ma la mia domanda è: c'è qualche uso convenzionale, da qualche parte là fuori, di p <.0001 per esempio? Oppure, per dirla provocatoriamente, il culto è universale?
P.

Il "culto" di P <0,05 può essere quasi universale, ma non è possibile essere certi di alcuna asserzione su questo punto, poiché è probabile che apparenti eccezioni siano il risultato di inconsapevole ibridazione dei metodi di Fisher e Neyman-Pearson. Nei documenti di ricerca farmacologica di base non c'è quasi mai una dichiarazione esplicita sull'uso dei tassi di errore di Neyman-Pearson.
Michael Lew,

Grazie per l'esempio Sono sempre meno colpito dalla ricerca farmacologica, per molte ragioni (non tutte scientifiche) ...
P.

1
Non dovresti prendere il mio commento sulla ricerca farmacologica di base come critica specifica di quel campo, è solo la mia disciplina particolare e quindi quella con la quale ho più esperienza. Sono fiducioso che nella ricerca di base troverete molte aree con esattamente le stesse carenze rispetto ai valori di P ibridi e ai tassi di errore.
Michael Lew,

Non preoccuparti, posso facilmente immaginare che questa mancanza viaggi bene attraverso i campi di indagine.
P.

3

Non conosco molto bene questa letteratura, ma credo che alcuni fisici usino soglie molto più basse nei test statistici, ma ne parlano in modo leggermente diverso. Ad esempio, se una misura è tre deviazioni standard dalla previsione teorica, viene descritta come una deviazione "tre sigma". Fondamentalmente, questo significa che il parametro di interesse è statisticamente diverso dal valore previsto nel test az con α = .01. Due sigma equivalgono all'incirca a α = .05 (in realtà sarebbe 1,96 σ). Se non sbaglio, il livello di errore standard in fisica è 5 sigma, che sarebbe α = 5 * 10 ^ -7

Inoltre, nelle neuroscienze o nell'epidemiologia, sembra sempre più comune eseguire regolarmente alcune correzioni per confronti multipli. Il livello di errore per ogni singolo test può quindi essere inferiore a p <.01


1
L'epidemiologia genetica usa abitualmente negli studi di associazione su tutto il genoma, spesso indipendentemente dal numero preciso di test eseguiti. α=5×108
ospite il

1

Come notato da Gaël Laurans sopra le analisi statistiche che si imbattono nel problema del confronto multiplo tendono ad usare soglie più conservative. Tuttavia, in sostanza usano 0,05, ma moltiplicato per il numero di test. È ovvio che questa procedura (correzione di Bonferroni) può portare rapidamente a valori p incredibilmente piccoli. Ecco perché le persone nel passato (nelle neuroscienze) si sono fermate a p <0,001. Al giorno d'oggi vengono utilizzati altri metodi di correzione comparativa multipla (vedi teoria dei campi casuale di Markov).

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.