Interpretazione del valore p nel test di ipotesi

Di recente mi sono imbattuto nel saggio "The Insignificance of Null Hypothesis Significance Testing", Jeff Gill (1999) . L'autore ha sollevato alcune idee sbagliate comuni riguardo al test di ipotesi e ai valori p, sui quali ho due domande specifiche:

Il valore p è tecnicamente , che, come sottolineato dal documento, generalmente non ci dice nulla su , a meno che non conosciamo le distribuzioni marginali, cosa che accade raramente nel test di ipotesi "di tutti i giorni". Quando otteniamo un piccolo valore p e "rifiutiamo l'ipotesi nulla", qual è esattamente l'affermazione probabilistica che stiamo facendo, poiché non possiamo dire nulla su ? $P({\rm observation}|H_{0})$ $P(H_{0}|{\rm observation})$ $P(H_{0}|{\rm observation})$
La seconda domanda si riferisce a una particolare dichiarazione della pagina 6 (652) del documento:

Poiché il valore p, o intervallo di valori p indicati dalle stelle, non è impostato a priori, non è la probabilità a lungo termine di commettere un errore di tipo I, ma in genere viene trattato come tale.

Qualcuno può aiutare a spiegare cosa si intende con questa affermazione?

hypothesis-testing p-value

— gung - Ripristina Monica
fonte

TY per il riferimento al documento

— Ludovic Kuty

@ezbentley: forse è interessante dare un'occhiata alla mia risposta: stats.stackexchange.com/questions/166323/…

Risposte:

(Tecnicamente, il valore P è la probabilità di osservare dati almeno estremi di quelli effettivamente osservati, data l'ipotesi nulla.)

Q1. La decisione di respingere l'ipotesi nulla sulla base di un piccolo valore P dipende in genere dalla "disgiunzione di Fisher": si è verificato un evento raro o l'ipotesi nulla è falsa. In effetti, è raro che l'evento sia ciò che ti dice il valore P piuttosto che la probabilità che il null sia falso.

La probabilità che il null sia falso può essere ottenuta dai dati sperimentali solo tramite il teorema di Bayes, che richiede la specifica della probabilità "precedente" dell'ipotesi nulla (presumibilmente ciò che Gill si riferisce a "distribuzioni marginali").

Q2. Questa parte della tua domanda è molto più difficile di quanto possa sembrare. C'è molta confusione riguardo ai valori di P e ai tassi di errore che è, presumibilmente, ciò a cui Gill si riferisce con "ma è generalmente trattato come tale". La combinazione dei valori P della pesca con i tassi di errore Neyman-Pearsonian è stata definita un miscuglio incoerente ed è purtroppo molto diffusa. Nessuna risposta breve sarà del tutto adeguata qui, ma posso indicarti un paio di buoni documenti (sì, uno è il mio). Entrambi ti aiuteranno a dare un senso alla carta di Gill.

Hurlbert, S., & Lombardi, C. (2009). Crollo finale del quadro teorico decisionale Neyman-Pearson e nascita del neoFisherian. Annales Zoologici Fennici, 46 (5), 311–349. (Link alla carta)

Lew, MJ (2012). Cattive pratiche statistiche in farmacologia (e altre discipline biomediche di base): probabilmente non si conosce P. British Journal of Pharmacology, 166 (5), 1559-1567. doi: 10.1111 / j.1476-5381.2012.01931.x (Link alla carta)

— Michael Lew
fonte

Grazie per il chiarimento. È tecnicamente scorretto fare dichiarazioni come "the small p-value indicates that the sample mean(or regression coefficient, etc) is significantly different from zero"? La fonte di confusione sembra essere che nessuna vera pretesa probabilistica viene fatta all'ipotesi nulla quando diciamo che il nulla è "respinto".

@ezbentley, dipende davvero da cosa intendi per significativo. Quella parola non è davvero molto significativa nella maggior parte dei contesti perché è stata contaminata dall'ibrido Fisher-Neyman-Pearson. Se hai ottenuto un valore P molto piccolo, allora è giusto dire che la media reale probabilmente non è zero, ma è importante dire quale fosse la media osservata e indicarne la variabilità (SEM o intervallo di confidenza), e non dimentica di dire quale era la dimensione del campione. Un valore P non sostituisce la specifica della dimensione dell'effetto osservato.

— Michael Lew,

Grazie per la spiegazione. Devo scavare più a fondo nel paradigma di Fisher e Neyman-Pearson.

@Michael Lew: Forse potrebbe essere interessante dare un'occhiata alla mia risposta: stats.stackexchange.com/questions/166323/…

Il tuo paragrafo sotto Q1 è probabilmente la migliore spiegazione del problema che ho visto finora. Grazie.

— Maxim.K,

+1 a @MichaelLew, che ti ha fornito una buona risposta. Forse posso ancora contribuire fornendo un modo di pensare al secondo trimestre. Considera la seguente situazione:

L'ipotesi nulla è vera. (Notare che se l'ipotesi nulla non è vera, non sono possibili errori di tipo I e non è chiaro quale significato abbia il valore .) $p$
è stato impostato convenzionalmente su . $\alpha$ $0.05$
Il valore calcolato è . $p$ $0.01$

$p$ $p$ $0.02$ $p$ $0.04\bar{9}$ $p$ $\approx$ $\alpha$

$p$

— gung - Ripristina Monica
fonte

Lavorando in un campo (epi) dove spesso è estremamente difficile credere che l'ipotesi H_0 = 0 sia effettivamente vera, penso che questo punto sia trascurato e meriti molta più attenzione.

— boscovich,

α

$\alpha$

+1, ma il suggerimento che il significato di un valore P non è chiaro quando il null è falso è fuorviante. Minore è il valore P, maggiore è la discrepanza tra null e osservato. Maggiore è la dimensione del campione, più si può presumere che la dimensione reale dell'effetto sia la dimensione dell'effetto osservato. È molto utile notare che il test di significatività è analogo alla stima.

— Michael Lew,

@MichaelLew, non sono sicuro che il valore p significhi queste cose da solo. In congiunzione w / N (e in particolare, mantenendo costante N) una p minore corrisponderà a una discrepanza maggiore tra null e osservato. Anche allora, si tratta più di qualcosa che si può dedurre da p piuttosto che qualcosa che p significa . È anche vero che con dimensioni dell'effetto N osservate più grandi dovrebbero essere più vicine alle ES reali, ma per me è meno chiaro quale ruolo p svolge lì. Ad esempio, con un falso nullo, il vero effetto potrebbe essere ancora molto piccolo, e con un N grande ci aspetteremmo che l'ES osservato sia vicino, ma p potrebbe comunque essere grande.

— gung - Ripristina Monica

...this fallacy shows up in statistics textbooks, as when Canavos and Miller (1999, p.255) stipulate: "If the null hypothesis is true, then a type I error occurs if (due to sampling error) the P-value is less than or equal to $alpha$"

α

$\alpha$

Vorrei fare un commento relativo a "l'insignificanza del test di significatività dell'ipotesi nulla" ma che non risponde alla domanda del PO.

$p$ $H_0$ $H_0\colon\{\theta=0\}$ $\theta=\epsilon$ $\epsilon$ $\epsilon$ $0$ $\epsilon$ $0$

— Stéphane Laurent
fonte

+1 Sì, il vero problema con i test di ipotesi convenzionali è che risponde a una domanda a cui non sei veramente interessato ad aver risposto, ovvero "ci sono prove significative di una differenza?", Piuttosto che "ci sono prove di una differenza significativa? ". Naturalmente ciò che è veramente desiderato è generalmente "qual è la probabilità che la mia ipotesi di ricerca sia vera?", Ma a questa non è possibile rispondere in un quadro frequentista. L'interpretazione errata deriva generalmente dai tentativi di trattare il test del frequentatore in termini bayesiani.

— Dikran Marsupial,

Non è una buona idea separare il significato dei valori P e la dimensione del campione. Un valore P più piccolo indica una dimensione dell'effetto più grande a qualsiasi dimensione del campione particolare, e per un valore P particolare una dimensione del campione più grande indica che la dimensione dell'effetto reale è probabilmente più vicina alla dimensione dell'effetto osservato. I test di significatività dovrebbero essere considerati nel contesto della stima, non degli errori. Un campione più ampio fornisce sempre più informazioni: come interpretarlo dipende dallo sperimentatore. L'ampio reclamo sull'effetto trascurabile del campione è solo un problema per il test delle ipotesi Neyman-Pearsonian.

— Michael Lew,