Valori p più piccoli sono più convincenti?


31

Ho letto valori , tassi di errore di tipo 1, livelli di significatività, calcoli di potenza, dimensioni degli effetti e dibattito Fisher vs Neyman-Pearson. Questo mi ha lasciato un po 'sopraffatto. Mi scuso per il muro di testo, ma ho ritenuto necessario fornire una panoramica della mia attuale comprensione di questi concetti, prima di passare alle mie domande reali.p


Da quello che ho raccolto, un valore è semplicemente una misura di sorpresa, la probabilità di ottenere un risultato almeno altrettanto estremo, dato che l'ipotesi nulla è vera. Fisher inizialmente intendeva che fosse una misura continua.p

Nel framework Neyman-Pearson, si seleziona in anticipo un livello di significatività e lo si utilizza come punto di interruzione (arbitrario). Il livello di significatività è uguale al tasso di errore di tipo 1. È definito dalla frequenza di lungo periodo, ovvero se si ripetesse un esperimento 1000 volte e l'ipotesi nulla fosse vera, circa 50 di quegli esperimenti avrebbero un effetto significativo , a causa della variabilità del campionamento. Scegliendo un livello di significatività, ci stiamo proteggendo da questi falsi positivi con una certa probabilità. valori tradizionalmente non compaiono in questo framework.P

Se troviamo un valore di 0,01, ciò non significa che il tasso di errore di tipo 1 sia 0,01, l'errore di tipo 1 viene dichiarato a priori. Credo che questo sia uno dei principali argomenti nel dibattito Fisher vs NP, perché i valori sono spesso riportati come 0,05 *, 0,01 **, 0,001 ***. Ciò potrebbe indurre in errore le persone a dire che l'effetto è significativo a un certo valore , anziché a un certo valore di significatività.ppp

Mi rendo anche conto che il valore è una funzione della dimensione del campione. Pertanto, non può essere utilizzato come misura assoluta. Un piccolo valore potrebbe indicare un effetto piccolo e non rilevante in un esperimento di grande campione. Per contrastare questo, è importante eseguire un calcolo delle dimensioni di potenza / effetto quando si determina la dimensione del campione per l'esperimento. valori ci dicono se c'è un effetto, non quanto sia grande. Vedi Sullivan 2012 .ppP

La mia domanda: come posso conciliare i fatti secondo cui il valore è una misura di sorpresa (più piccolo = più convincente) mentre allo stesso tempo non può essere visto come una misurazione assoluta?p

Ciò di cui sono confuso è il seguente: possiamo essere più sicuri in un piccolo valore che in un grande? In senso pescatore, direi di sì, siamo più sorpresi. Nel quadro NP, la scelta di un livello di significatività inferiore implicherebbe una maggiore protezione da falsi positivi.p

D'altra parte, i valori dipendono dalle dimensioni del campione. Non sono una misura assoluta. Quindi non possiamo semplicemente dire che 0,001593 è più significativo di 0,0439. Eppure questo sarebbe implicito nel quadro di Fisher: saremmo più sorpresi di un valore così estremo. C'è persino discussione sul fatto che il termine altamente significativo sia un termine improprio: è sbagliato fare riferimento ai risultati come "altamente significativi"?p

Ho sentito che i valori in alcuni campi della scienza sono considerati importanti solo quando sono inferiori a 0,0001, mentre in altri campi i valori intorno allo 0,01 sono già considerati altamente significativi.p

Domande correlate:


Inoltre, non dimenticare che un valore p "significativo" non ti dice nulla sulla tua teoria. Questo è persino ammesso dai più ardenti difensori: Precis di significato statistico: razionale, validità e utilità. Siu L. Chow. SCIENZE DEL COMPORTAMENTO E DEL CERVELLO (1998) 21, 169–239 I dati vengono interpretati quando vengono trasformati in prove. Le ipotesi su cui si basa un'interpretazione devono essere enumerate e, se possibile, verificate. Cosa viene misurato?
Livido

2
+1, ma ti incoraggio a focalizzare la domanda e a rimuovere le domande secondarie. Se sei interessato al motivo per cui alcune persone sostengono che gli intervalli di confidenza sono migliori dei valori p, fai una domanda separata (ma assicurati che non sia stato fatto prima).
ameba dice di reintegrare Monica il

3
A parte questo, in che modo la tua domanda non è un duplicato di Perché i valori p inferiori non sono più prove contro il nulla? Hai visto quella discussione? Forse puoi aggiungerlo all'elenco alla fine del tuo post. Vedi anche una domanda simile Che senso ha confrontare i valori p tra loro? , ma sono riluttante a raccomandare quel thread, perché la risposta accettata è IMHO errata / fuorviante (vedi discussione nei commenti).
ameba dice di reintegrare Monica il


2
Grazie per i collegamenti, @Glen_b; Conosco bene il documento Gelman & Stern e spesso mi riferisco a me stesso, ma non ho mai visto questo documento del 2013 o la sua discussione prima. Tuttavia, vorrei mettere in guardia OP sull'interpretazione di Gelman & Stern nel contesto della sua domanda. G&S offre un bell'esempio con due studi che stimano un effetto come e 10 ± 10 ; in un caso p < 0,01 , in un altro p > 0,05 , ma la differenza tra le stime non è significativa. Questo è importante da tenere a mente, ma se ora, dopo l'OP, chiediamo se il primo studio è più convincente, direi sicuramente di sì. 25±1010±10p<0.01p>0.05
L'ameba dice di reintegrare Monica il

Risposte:


18

I valori più piccoli sono "più convincenti"? Sì, certo che lo sono.p

Nel quadro di Fisher, -value è una quantificazione della quantità di prove contro l'ipotesi nulla. Le prove possono essere più o meno convincenti; più piccolo è il valore p , più è convincente. Si noti che in ogni dato esperimento con dimensione del campione fissa n , il valore p è monotonicamente correlato alla dimensione dell'effetto, come sottolinea bene @Scortchi nella sua risposta (+1). Quindi valori p più piccoli corrispondono a dimensioni di effetto maggiori; ovviamente sono più convincenti!ppnpp

Nel framework Neyman-Pearson, l'obiettivo è ottenere una decisione binaria: o l'evidenza è "significativa" o non lo è. Scegliendo la soglia , garantiamo che non avremo più di α falsi positivi. Nota che persone diverse possono avere in mente α diverse quando guardano gli stessi dati; forse quando leggo un articolo da un campo di cui sono scettico, non considererei personalmente come risultati "significativi" con ad esempio p = 0,03 anche se gli autori li definiscono significativi. La mia α personale potrebbe essere impostata su 0,001 o qualcosa del genere. Ovviamente più basso è il p riportatoαααp=0.03α0.001p-valore, più lettori scettici saranno in grado di convincere! Quindi, ancora una volta, i valori inferiori sono più convincenti.p

La pratica attualmente standard è quella di combinare gli approcci di Fisher e Neyman-Pearson: se , i risultati vengono chiamati "significativi" e il valore p viene [esattamente o approssimativamente] riportato e usato come misura di convincenza (marcandolo con le stelle, usando espressioni come "altamente significative", ecc.); se p > α , i risultati vengono chiamati "non significativi" e basta.p<αpp>α

Questo di solito viene chiamato "approccio ibrido", e in effetti è ibrido. Alcune persone sostengono che questo ibrido sia incoerente; Tendo a non essere d'accordo. Perché non sarebbe valido fare due cose valide contemporaneamente?

Ulteriori letture:


1
(+1) Ma vedi la Sezione 4.4 del documento di Michael Lew: alcuni preferirebbero equiparare la quantità di prove con la probabilità piuttosto che con il valore p, il che fa la differenza quando vengono confrontati i valori p di esperimenti con diversi spazi di campionamento. Quindi parlano di "indicizzazione" o "calibrazione" dell'evidenza / probabilità.
Scortchi - Ripristina Monica

Scusate, intendevo dire, più precisamente, che, in questa prospettiva, la relativa "evidenza" (o "supporto") per valori diversi che un parametro può assumere è il rapporto tra le funzioni di probabilità valutate per i dati osservati. Quindi, nell'esempio di Lew, una testa su sei colpi è la stessa prova contro l'ipotesi nulla, indipendentemente dal fatto che lo schema di campionamento sia binomiale o binomiale negativo; tuttavia i valori di p differiscono: si potrebbe dire che in uno schema di campionamento è stato meno probabile accumulare altrettante prove contro il nulla. (Ovviamente i diritti sulla parola "prova", come con "significativo", ...
Scortchi - Reinstalla Monica

... non sono ancora stati stabiliti con fermezza.)
Scortchi - Ripristina Monica

Hmmm, grazie mille per aver attirato la mia attenzione su questa sezione; L'ho letto prima, ma apparentemente ha perso la sua importanza. Devo dire che al momento ne sono confuso. Lew scrive che i valori di p non dovrebbero essere "adeguati" tenendo conto delle regole di arresto; ma non vedo alcun aggiustamento nelle sue formule 5-6. Quali sarebbero i valori p "non aggiustati"?
ameba dice di reintegrare Monica il

1
@Scortchi: Hmmm. Davvero non capisco perché uno di questi valori p sia "regolato" e un altro no; perché non viceversa? Non sono affatto convinto dall'argomento di Lew qui, e non lo capisco nemmeno del tutto. Pensando a questo, ho trovato la domanda di Lew del 2012 sul principio di verosimiglianza e sui valori p e ho pubblicato una risposta lì. Il punto è che non sono necessarie regole di arresto diverse per ottenere valori p diversi; si può semplicemente considerare diverse statistiche di test. Forse possiamo continuare a discutere lì, apprezzerei il tuo contributo.
ameba dice di reintegrare Monica il

9

Non so cosa si intenda per valori p minori che sono "migliori" o per noi "più fiduciosi in essi". Ma considerare i valori di p come una misura di quanto dovremmo essere sorpresi dai dati, se credessimo all'ipotesi nulla, sembra abbastanza ragionevole; il valore p è una funzione monotonica della statistica test che hai sceltoper misurare la discrepanza con l'ipotesi nulla in una direzione in cui sei interessato, calibrandola rispetto alle sue proprietà secondo una procedura pertinente di campionamento da una popolazione o assegnazione casuale di trattamenti sperimentali. "Significato" è diventato un termine tecnico per indicare che i valori di p sono al di sopra o al di sotto di un valore specificato; così anche quelli che non hanno alcun interesse a specificare i livelli di significatività e ad accettare o rifiutare ipotesi tendono ad evitare frasi come "altamente significative": semplice aderenza alla convenzione.

Per quanto riguarda la dipendenza dei valori di p dalla dimensione del campione e dalla dimensione dell'effetto, forse sorge un po 'di confusione perché, ad esempio, potrebbe sembrare che 474 teste su 1000 lanci dovrebbero essere meno sorprendenti di 2 su 10 per qualcuno che pensa che la moneta sia giusta - dopo tutto la proporzione del campione si discosta solo leggermente dal 50% nel primo caso, ma i valori di p sono circa gli stessi. Ma vero o falso non ammettono gradi; il valore-p sta facendo quello che gli viene chiesto: spesso gli intervalli di confidenza per un parametro sono davvero ciò che si desidera valutare quanto esattamente un effetto è stato misurato e l'importanza pratica o teorica della sua grandezza stimata.


1
+1. Penso che la domanda fosse: i valori p più piccoli sono più convincenti - è così che capisco "meglio" nel titolo (in generale, la domanda trarrebbe grandi benefici se l'OP tentasse di focalizzarlo)? Se uno ottienep=0.04 o p=0.000004, si potrebbero forse definire i risultati "significativi" in entrambi i casi, ma sono più convincenti in quest'ultimo caso? La pratica di mettere le "stelle" vicino ai valori di p presuppone che lo siano; sono loro? (Si tratta essenzialmente di chiedere un "ibrido" spesso criticato tra Fisher e Neyman-Pearson; personalmente, non ho alcun problema.)
ameba dice Reinstate Monica il

1

Grazie per i commenti e le letture suggerite. Ho avuto un po 'più di tempo per riflettere su questo problema e credo di essere riuscito a isolare le mie principali fonti di confusione.

  • Inizialmente ho pensato che ci fosse una dicotomia tra la visualizzazione del valore p come una misura di sorpresa rispetto a quella che afferma che non è una misura assoluta. Ora mi rendo conto che queste affermazioni non si contraddicono necessariamente l'una con l'altra. Il primo ci permette di essere più o meno fiduciosi nell'estremità (anche senza somiglianza?) Di un effetto osservato, rispetto ad altri risultati ipotetici dello stesso esperimento. Mentre quest'ultimo ci dice solo che ciò che potrebbe essere considerato un valore p convincente in un esperimento, potrebbe non essere affatto impressionante in un altro, ad esempio se le dimensioni del campione differiscono.

  • Il fatto che alcuni campi della scienza utilizzino una diversa linea di base di forti valori p, potrebbe essere un riflesso della differenza nelle dimensioni dei campioni comuni (astronomia, esperimenti clinici, psicologici) e / o un tentativo di trasmettere la dimensione dell'effetto in un p- valore. Ma quest'ultimo è una confusione errata dei due.

  • L'importanza è una domanda sì / no basata sull'alfa che è stata scelta prima dell'esperimento. Un valore p non può quindi essere più significativo di un altro, poiché sono più piccoli o più grandi del livello di significatività scelto. D'altra parte, un valore p più piccolo sarà più convincente di un valore più grande (per una dimensione del campione simile / esperimento identico, come menzionato nel mio primo punto).

  • Gli intervalli di confidenza trasmettono intrinsecamente la dimensione dell'effetto, rendendoli una buona scelta per proteggersi dai problemi sopra menzionati.


0

Il valore p non può essere una misura di sorpresa perché è solo una misura di probabilità quando il valore nullo è vero. Se il valore nullo è vero, ogni possibile valore di p è ugualmente probabile. Non si può essere sorpresi da nessun valore p prima di decidere di rifiutare il null. Una volta che si decide che c'è un effetto, il significato del valore p svanisce. Uno semplicemente lo segnala come un collegamento in una catena induttiva relativamente debole per giustificare il rifiuto, o no, del nulla. Ma se è stato respinto in realtà non ha più alcun significato.


+1 per il fatto "quando il valore nullo è vero, allora ogni valore p è ugualmente probabile '', tuttavia, penso che questo valga solo per variabili casuali continue?

Si noti che ho detto che ogni valore "possibile" di p è ugualmente probabile. Quindi questo è vero per variabili discrete o continue. Con variabili discrete il numero di valori possibili è inferiore.
John,

sei sicuro che la distribuzione dei valori p (sotto H0) è sempre uniforme per le variabili discrete perché questo link sembra dire qualcosa di

Credo che la risposta principale dimostri che si tratta di un problema. Il motivo per cui la distribuzione sembra non uniforme è perché i possibili valori p sono distribuiti in modo diseguale. Glenn lo chiama persino quasi uniforme. Suppongo sia possibile che con alcuni test molto sparsi di dati binomiali con N piccoli, forse la probabilità di specifici valori p sia disuguale, ma se si considera la probabilità di valori p in un dato intervallo sarà più vicino all'uniforme.
Giovanni

1
@amoeba: diciamo che il test t che menzioni test H0:μ=0.5 e tu ottieni p=,0000,000004 millions. Potrebbe essere quello, con lo stesso campione che testH0:μ=0.45 e tu ottieni p=,0000,000001 millions, diresti quindi che ci sono più prove per μ=0.45?
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.