Il valore esatto di un "valore p" non ha senso?


31

Ho avuto una discussione con uno statistico nel 2009 in cui ha affermato che il valore esatto di un valore p è irrilevante: l'unica cosa importante è se è significativo o meno. Cioè un risultato non può essere più significativo di un altro; i tuoi campioni, ad esempio, provengono dalla stessa popolazione o no.

Ho qualche scrupolo con questo, ma forse posso capire l'ideologia:

  1. La soglia del 5% è arbitraria, ovvero che p = 0,051 non è significativo e che p = 0,049 lo è, non dovrebbe davvero cambiare la conclusione della tua osservazione o esperimento, nonostante un risultato sia significativo e l'altro non significativo.

    Il motivo per cui lo sostengo ora è che sto studiando per un Master in Bioinformatica, e dopo aver parlato con le persone sul campo, sembra esserci un determinato impulso per ottenere un valore p esatto per ogni serie di statistiche che fanno. Ad esempio, se 'raggiungono' un valore p di p <1,9 × 10 -12 , vogliono dimostrare quanto sia significativo il loro risultato e che questo risultato è SUPER informativo. Questo problema è esemplificato da domande come: Perché non riesco a ottenere un valore p inferiore a 2.2e-16? , per cui vogliono registrare un valore che indica che per caso questo sarebbe MOLTO meno di 1 su un trilione. Ma vedo poca differenza nel dimostrare che questo risultato si verificherebbe meno di 1 su un trilione rispetto a 1 su un miliardo.

  2. Posso apprezzare quindi che p <0,01 mostra che c'è meno dell'1% di probabilità che ciò accada, mentre p <0,001 indica che un risultato come questo è ancora più improbabile del suddetto valore p, ma le tue conclusioni tratte dovrebbero essere completamente diverso? Dopotutto sono entrambi valori p significativi. L'unico modo in cui posso concepire di voler registrare il valore p esatto è durante una correzione di Bonferroni in base alla quale la soglia cambia a causa del numero di confronti effettuati, riducendo così l'errore di tipo I. Ma ancora, perché dovresti mostrare un valore p inferiore di 12 ordini di grandezza rispetto alla tua soglia?

  3. E l'applicazione della correzione Bonferroni in sé non è anch'essa leggermente arbitraria? Nel senso che inizialmente la correzione è vista come molto conservativa, e quindi ci sono altre correzioni che si possono scegliere per accedere al livello di significatività che l'osservatore potrebbe usare per i loro confronti multipli. Ma a causa di ciò, non è il punto in cui qualcosa diventa significativo essenzialmente variabile a seconda delle statistiche che il ricercatore vuole usare. Le statistiche dovrebbero essere così aperte all'interpretazione?

In conclusione, le statistiche non dovrebbero essere meno soggettive (anche se immagino che la necessità di essere soggettive sia una conseguenza di un sistema multivariato), ma alla fine voglio un chiarimento: qualcosa può essere più significativo di qualcos'altro? E p <0,001 sarà sufficiente rispetto al tentativo di registrare il valore p esatto?


6
Questo è abbastanza interessante: stat.washington.edu/peter/342/nuzzo.pdf
Dan

4
Liberamente correlato: nella mia risposta alla domanda Quando usare il framework Fisher e Neyman-Pearson , sostengo che esiste un ruolo per ciascun framework. Mantenendo la mia posizione lì, direi che i valori p esatti non importerebbero nel quadro NP, ma possono essere nel quadro dei pescatori (nella misura in cui il numero di cifre riportate è effettivamente affidabile).
gung - Ripristina Monica

È sorprendente quanto alcuni statistici vogliano aggrapparsi al concetto di un valore p quando di solito è la risposta giusta alla domanda sbagliata. Supponiamo che i valori p non siano stati implementati in nessun pacchetto software di statistiche. Dubito che le persone scriverebbero il proprio codice per ottenerlo.
probabilityislogic

3
@probabilityislogic - avendo tagliato i miei denti statistici sui test di permutazione, i valori p sono un modo molto naturale di pensare in quel caso, quindi potrei semplicemente scrivere il mio codice per ottenerli se non lo fossero ... e in effetti, su le rare occasioni in cui eseguo dei test, di solito sono per una situazione atipica che richiede simulazione o una qualche forma di ricampionamento, ho scoperto che in realtà tendo a farlo. Tenderei invece a dire che i test di ipotesi di solito rispondono alla domanda sbagliata. Nelle rare occasioni in cui lo fanno, penso che abbiano un valore (non ultimo, le altre persone non sono vincolate dal mio livello di significatività).
Glen_b

@glen_b - il mio problema con i valori p è che non forniscono "la risposta" a nessun test di ipotesi da soli, poiché ignorano le alternative. Se sei limitato a un solo numero, il valore della probabilità per i dati è una statistica molto migliore rispetto al valore p (oltre ad avere gli stessi problemi di p). In questo modo le persone non sono vincolate dalla tua scelta della statistica di test (oltre a non essere vincolata dalla tua soglia di significatività).
probabilityislogic

Risposte:


24
  1. Il tasso di errore di rifiuto di tipo 1 / falso non è completamente arbitrario, ma sì, è vicino. È piuttosto preferibile perché è meno cognitivamente complesso (alla gente piacciono i numeri tondi e i multipli di cinque ). È un discreto compromesso tra scetticismo e praticità, anche se forse un po 'obsoleto: i metodi moderni e le risorse di ricerca possono rendere preferibili standard più elevati (cioè valori di inferiori ), se devono esserci standard ( Johnson, 2013 ) .α = .051 pα=.05α=.051p

    IMO, il problema maggiore rispetto alla scelta della soglia è la scelta spesso non esaminata di utilizzare una soglia in cui non è necessario o utile. In situazioni in cui deve essere fatta una scelta pratica, posso vedere il valore, ma molte ricerche di base non richiedono la decisione di respingere le proprie prove e rinunciare alla prospettiva di rifiutare il nulla solo perché le prove di un dato campione contro di esso non sono all'altezza di quasi ogni soglia ragionevole. Eppure, gran parte di autori di questa ricerca sentiamo obbligati a fare così per convenzione, e resistere a disagio, inventando termini come significato "marginale" per elemosinare attenzione quando possono sentirlo scivolare via perché il loro pubblico spesso non si preoccupano di s . Se si guardano le altre domande qui a.05 p pp.05pinterpretazione del valore, vedrai molte dissensi sull'interpretazione dei valori da parte di binari / decisioni riguardanti il ​​nulla.pfail toreject

  2. Completamente diverso - no. Significativamente diverso - forse. Un motivo per mostrare un valore ridicolmente piccolo è implicare informazioni sulla dimensione dell'effetto. Naturalmente, solo riportare la dimensione dell'effetto sarebbe molto meglio per diversi motivi tecnici, ma gli autori spesso non riescono a considerare questa alternativa e il pubblico potrebbe anche avere meno familiarità con essa, purtroppo. In un mondo nullo-ipotetico in cui nessuno sa come riportare le dimensioni degli effetti, si può avere ragione il più delle volte a indovinare che una più piccola significa un effetto più grande. In qualunque misura questo mondo nullo-ipotetico sia più vicino alla realtà che al contrario, forse c'è qualche valore nel riportare esatte per questo motivo. Per favore, comprendi che questo punto è la pura difesa del diavolo ...p pppp

    Un altro uso per i esatti che ho imparato impegnandomi in un dibattito molto simile qui è come indici delle funzioni di probabilità. Vedi i commenti e l'articolo di Michael Lew ( Lew, 2013 ) collegati nella mia risposta a " Accogliere visioni tratteggiate di valori p ".p

  3. Non penso che la correzione di Bonferroni sia davvero lo stesso tipo di arbitrario. Corregge la soglia che ritengo concordiamo sia almeno quasi del tutto arbitraria, quindi non perde nessuna di quella fondamentale arbitrarietà, ma non credo che aggiunga qualcosa di arbitrario all'equazione. La correzione è definita in modo logico, pragmatico e variazioni minori verso correzioni sempre più grandi sembrerebbero richiedere argomenti piuttosto sofisticati per giustificarle come più che arbitrarie, mentre penso che sarebbe più facile discutere per un aggiustamento di senza dover superare qualsiasi logica profondamente attraente e semplice al suo interno.α

    Semmai, penso che i valori di dovrebbero essere più aperti all'interpretazione! Vale a dire, se il nulla sia davvero più utile dell'alternativa dovrebbe dipendere da qualcosa di più della semplice prova contro di esso, compreso il costo per ottenere più informazioni e il valore incrementale aggiunto di conoscenze più precise ottenute in tal modo. Questa è essenzialmente l'idea senza soglia dei pescatori che, AFAIK, è così che è iniziata. Vedi " Riguardo ai valori p, perché 1% e 5%? Perché non 6% o 10%? "p

Se le fail to/ rejectcrisi non sono costrette fin dall'inizio sull'ipotesi nulla, allora la comprensione più continua del significato statistico ammette certamente la possibilità di un significato in costante aumento. Nell'approccio dicotomizzato alla significatività statistica (penso che questo sia talvolta indicato come il quadro Neyman-Pearson; cfr. Dienes, 2007 ), no, qualsiasi risultato significativo è significativo come il prossimo - niente di più, niente di meno. Questa domanda può aiutare a spiegare questo principio: " Perché i valori di p sono distribuiti uniformemente sotto l'ipotesi nulla? " Per quanto riguarda quanti zero sono significativi e vale la pena riportarli, raccomando la risposta di Glen_b a questa domanda: " Come dovrebbe minuscolap-valori da segnalare? (e perché R pone un minimo di 2.22e-16?) "- è molto meglio delle risposte alla versione di quella domanda che hai collegato su Stack Overflow!

Riferimenti
: Johnson, VE (2013). Standard rivisti per prove statistiche. Atti della National Academy of Sciences, 110 (48), 19313–19317. Estratto da http://www.pnas.org/content/110/48/19313.full.pdf .
- Lew, MJ (2013). A P o no a P: Sulla natura probatoria dei valori di P e il loro posto nell'inferenza scientifica. arXiv: 1311.0081 [stat.ME]. Estratto da http://arxiv.org/abs/1311.0081 .


3
+1, molti buoni pensieri qui. 1 cavillo però, per quanto riguarda il n. 1, direi che dovremmo avere standard più bassi (vale a dire valori di p più alti) come preferibili. Spesso è difficile ottenere dati sufficienti per avere un buon potere di studiare qualcosa. Ho eseguito una serie di analisi di potenza per i dottori che vogliono studiare una condizione rara. Dicono: "Questo è davvero poco chiaro, ho un'idea per un nuovo approccio, probabilmente possiamo ottenere 50 pazienti con questo nei prossimi due anni", e dico "il tuo potere sarà del 45%", e il progetto è abbandonato. Le malattie rare continueranno ad essere sottovalutate se p deve essere pari o inferiore a 0,05.
gung - Ripristina Monica

2
@gung: sono completamente d'accordo. Ho citato Johnson (2013) solo perché ero consapevole della sua argomentazione, non perché sono d'accordo :) IMO, avendo uno standard convenzionale che è inflessibile e insensibile alle preoccupazioni che descrivi (che fanno eco al mio punto nel secondo paragrafo del mio risposta al n. 3) è uno dei problemi principali e la sua regolazione su o giù non risolverà il problema. Quando non c'è reale necessità di un hard-and-fast fail to/ rejectdecisione, penso che sia molto meglio per rendere il giudizio di quanto sia prezioso propria prova si basa su molto di più che la probabilità che il campione dato il nulla.
Nick Stauner,

4
Discussione eccellente Un articolo interessante di una certa rilevanza è Gelman e Stern. La differenza tra "significativo" e "non significativo" non è di per sé statisticamente significativa (pubblicata più tardi in American Statistician, 2006), che non direi caratterizza il valore di p come necessariamente insignificante, ma darebbe una forte nota di cautela riguardo al porre molta enfasi sul confronto dei valori p (piuttosto che sulle stime degli effetti, diciamo). Gelman ha discusso spesso di questioni relative a questo sul suo blog.
Glen_b

2
ppp

2
Sembra che Gelman fornisca anche un link al pdf dell'articolo pubblicato sul suo sito.
Glen_b -Restate Monica

13

Mi sembra che, se un valore è significativo, il suo valore esatto è significativo.

Il valore p risponde a questa domanda:

Se, nella popolazione da cui questo campione è stato estratto casualmente, l'ipotesi nulla fosse vera, qual è la probabilità di ottenere una statistica del test almeno estrema come quella che abbiamo ottenuto nel campione?

Che dire di questa definizione rende insignificante un valore esatto?

Questa è una domanda diversa da quelle sui valori estremi di p. Il problema con le affermazioni che coinvolgono p con molti 0 riguarda quanto bene possiamo stimare p negli estremi. Dal momento che non possiamo farlo molto bene, non ha senso usare stime così precise di p. Questo è lo stesso motivo per cui non diciamo che p = 0,0319281010012981. Non conosciamo queste ultime cifre con fiducia.

Le nostre conclusioni dovrebbero essere diverse se p <0,001 anziché p <0,05? Oppure, per usare numeri precisi, le nostre conclusioni dovrebbero essere diverse se p = 0.00023 anziché p = 0,035?

Penso che il problema sia il modo in cui generalmente concludiamo le cose su p. Diciamo "significativo" o "non significativo" basato su un livello arbitrario. Se usiamo questi livelli arbitrari, allora sì, le nostre conclusioni saranno diverse. Ma non è così che dovremmo pensare a queste cose. Dovremmo esaminare il peso delle prove e i test statistici sono solo una parte di tali prove. Inserirò (ancora una volta) i "criteri MAGIC" di Robert Abelson:

Magnitudine: quanto è grande l'effetto?

Articolazione: con che precisione viene dichiarata? Ci sono molte eccezioni?

Generalità - a quale gruppo si applica?

Interesse: alla gente importa?

Credibilità - ha senso?

È la combinazione di tutto ciò che conta. Si noti che Abelson non menziona affatto i valori di p, sebbene entrino in una sorta di ibrido di grandezza e articolazione.


5
Spesso non lo diciamo, ma tecnicamente il valore p riflette solo qualcosa sulla "probabilità di ottenere una statistica test almeno estrema quanto quella che abbiamo ottenuto nel campione" se l'ipotesi nulla è vera, la nostra stima del campione della varianza della popolazione è perfettamente accurata e soddisfiamo tutti gli altri presupposti del nostro test. Getta alcuni intervalli di confidenza attorno ad alcuni valori p tramite il bootstrap e penso che vedrai che spesso non siamo nemmeno così sicuri del centesimo posto.
Russellpierce,

2
In breve, è un controfattuale così contorto che tentare di quantificare un valore di p è controproducente quando dovremmo davvero (come si suppone) tornare alla MAGIA.
Russellpierce,

Devo ammetterlo, non avevo pensato di mettere intervalli di confidenza (o intervalli di credibilità) attorno ai valori di p. Mi chiedo quanto è stato fatto in questo settore?
Peter Flom - Ripristina Monica

2
Non ho una citazione a portata di mano, ma so che c'è del lavoro in tal senso - a prescindere, è una cosa accademica da fare perché puoi rendere gli intervalli di confidenza dei tuoi intervalli di confidenza dei tuoi intervalli di confidenza quasi all'infinito (c'è un massimo varianza che è ragionevolmente stimata da qualsiasi insieme di dati). Una volta ho avuto una conversazione piuttosto lunga e dettagliata con @Nick Stauner. Potrebbe ancora avere alcuni degli articoli che ha raccolto durante quella conversazione da portare al tavolo.
Russellpierce,

1
Nulla sugli intervalli di confidenza per i valori p che ricordo, ma avrei potuto scorrere queste sezioni. Non ero interessato a fare intervalli di confidenza per i valori p ;)
Nick Stauner,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.