Comprensione del valore p


33

So che ci sono molti materiali che spiegano il valore p. Tuttavia, il concetto non è facile da comprendere saldamente senza ulteriori chiarimenti.

Ecco la definizione di p-value da Wikipedia:

Il valore p è la probabilità di ottenere una statistica test almeno estrema quanto quella effettivamente osservata, supponendo che l'ipotesi nulla sia vera. ( http://en.wikipedia.org/wiki/P-value )

La mia prima domanda riguarda l'espressione "almeno estrema come quella che è stata effettivamente osservata". La mia comprensione della logica alla base dell'uso del valore p è la seguente: se il valore p è piccolo, è improbabile che l'osservazione si sia verificata assumendo l'ipotesi nulla e potremmo aver bisogno di un'ipotesi alternativa per spiegare l'osservazione. Se il valore p non è così piccolo, è probabile che l'osservazione si sia verificata solo assumendo l'ipotesi nulla e l'ipotesi alternativa non è necessaria per spiegare l'osservazione. Quindi, se qualcuno vuole insistere su un'ipotesi, deve dimostrare che il valore p dell'ipotesi nulla è molto piccolo. Con questa visione in mente, la mia comprensione dell'espressione ambigua è che il valore p èmin[P(X<X),P(X<X)], se il PDF della statistica è unimodale, dove X è la statistica del test e X è il suo valore ottenuto dall'osservazione. È giusto? Se è giusto, è ancora applicabile usare il PDF bimodale della statistica? Se due picchi del PDF sono separati bene e il valore osservato si trova da qualche parte nella regione a bassa densità di probabilità tra i due picchi, quale intervallo dà il valore p?

La seconda domanda riguarda un'altra definizione di valore p da Wolfram MathWorld:

La probabilità che una variabile assuma per caso un valore maggiore o uguale al valore osservato. ( http://mathworld.wolfram.com/P-Value.html )

Ho capito che la frase "rigorosamente per caso" dovrebbe essere interpretata come "assumendo un'ipotesi nulla". È giusto?

La terza domanda riguarda l'uso di "ipotesi nulla". Supponiamo che qualcuno voglia insistere sul fatto che una moneta sia giusta. Esprime l'ipotesi in quanto la frequenza relativa delle teste è 0,5. Quindi l'ipotesi nulla è "la frequenza relativa delle teste non è 0,5". In questo caso, mentre il calcolo del valore p dell'ipotesi nulla è difficile, il calcolo è facile per l'ipotesi alternativa. Naturalmente il problema può essere risolto scambiando il ruolo delle due ipotesi. La mia domanda è che il rifiuto o l'accettazione basati direttamente sul valore p dell'ipotesi alternativa originale (senza introdurre l'ipotesi nulla) è se va bene o no. Se non è OK, qual è la solita soluzione per tali difficoltà nel calcolo del valore p di un'ipotesi nulla?




Ho pubblicato una nuova domanda che è più chiarita in base alla discussione in questo thread.




14
Hai colto una sottigliezza che spesso non viene riconosciuta: "più estremo" deve essere misurato in termini di probabilità relativa dell'ipotesi alternativa piuttosto che nell'ovvio (ma non generalmente corretto) senso di essere più avanti nella coda del campionamento nullo distribuzione. Ciò è esplicito nella formulazione del Lemma di Neyman-Pearson , che viene utilizzato per giustificare molti test di ipotesi e per determinare le loro regioni critiche (e da cui i loro valori p). Pensare a ciò ti aiuterà a rispondere alla tua prima domanda.
whuber

1
Come ricordo, il Lemma di Neyman-Pearson è ottimale per test di ipotesi semplici o semplici (Ho: mu = mu_0, Ha: mu = mu_a). Per i test compositi (Ho: mu = mu_0, Ha: mu> mu_a) esiste un test alternativo.
RobertF,

Risposte:


17

Prima risposta

Devi pensare al concetto di estremo in termini di probabilità delle statistiche dei test, non in termini di valore o valore della variabile casuale da testare. Riporto il seguente esempio da Christensen, R. (2005). Test di Fisher, Neyman, Pearson e Bayes . The American Statistician , 59 (2), 121-126

(r|θ=0r|1234p(r|θ=0)|0,9800.0050.0050,010pvun'lue|1.00.010.010.02

Ecco le osservazioni, la seconda riga è la probabilità di osservare una data osservazione sotto l'ipotesi nulla , che qui viene utilizzata come statistica di test, la terza riga è il valore . Siamo qui nel quadro del test Fisherian: esiste un'ipotesi ( , in questo caso ) in base alla quale vogliamo vedere se i dati sono strani o no. Le osservazioni con la minima probabilità sono 2 e 3 con 0,5% ciascuna. Se ottieni 2, ad esempio, la probabilità di osservare qualcosa come probabile o meno probabile ( e ) è dell'1%. L'osservazione non contribuisce alθ = 0 p H 0 θ = 0 r = 2 r = 3 r = 4 prθ=0pH0θ=0r=2r=3r=4p valore, anche se è più lontano (se esiste una relazione d'ordine), perché ha una maggiore probabilità di essere osservato.

Questa definizione funziona in generale, poiché ospita variabili sia categoriche che multidimensionali, dove non è definita una relazione d'ordine. Nel caso di una variabile quantitativa inglese, in cui si osservano alcune distorsioni dal risultato più probabile, potrebbe avere senso calcolare il valore coda singola e considerare solo le osservazioni che si trovano su un lato della distribuzione delle statistiche del test.p

Seconda risposta

Non sono completamente d'accordo con questa definizione di Mathworld.

Terza risposta

Devo dire che non sono completamente sicuro di aver capito la tua domanda, ma cercherò di fare alcune osservazioni che potrebbero aiutarti.

Nel contesto più semplice dei test dei pescatori, in cui si ha solo l'ipotesi nulla, questo dovrebbe essere lo status quo . Questo perché i test dei pescatori funzionano essenzialmente per contraddizione. Quindi, nel caso della moneta, a meno che tu non abbia motivi per pensare diversamente, assumeresti che sia giusto, . Quindi si calcola il valore p per i dati in H 0 e, se il valore p è inferiore a una soglia predefinita, si rifiuta l'ipotesi (prova per contraddizione). Non si calcola mai la probabilità dell'ipotesi nulla.H0:θ=0.5pH0p

Con i test Neyman-Pearson si specificano due ipotesi alternative e, in base alla loro probabilità relativa e alla dimensionalità dei vettori dei parametri, si favorisce l'uno o l'altro. Questo può essere visto, ad esempio, nel testare l'ipotesi di monete distorte rispetto a quelle imparziali. Non polarizzato significa fissare il parametro su (la dimensionalità di questo spazio parametri è zero), mentre la polarizzazione può essere qualsiasi valore θ 0,5 (dimensionalità uguale a uno). Ciò risolve il problema di provare a contraddire l'ipotesi di distorsione con contraddizione, che sarebbe impossibile, come spiegato da un altro utente. Fisher e NP danno risultati simili quando il campione è grande, ma non sono esattamente equivalenti. Di seguito un semplice codice in R per una moneta distorta.θ=0.5θ0.5

n <- 100  # trials
p_bias <- 0.45  # the coin is biased
k <- as.integer(p_bias * n)  # successes

# value obtained by plugging in the MLE of p, i.e. k/n = p_bias
lambda <- 2 * n * log(2) + 2 * k * log(p_bias) + 2 * (n-k) * log(1. - p_bias)

p_value_F <- 2 * pbinom(k, size=n, prob=0.5)  # p-value under Fisher test
p_value_NP <- 1 - pchisq(q=lambda, df=1)  # p-value under Neyman-Pearson
binom.test(c(k, n-k))  # equivalent to Fisher

2
+1 per aver segnalato un ottimo articolo di cui non sapevo nulla. (Anche per alcuni necessari scetticismi sull'utilità della visione statistica di Mathworld).
conjugateprior,

Grazie mille! Quindi il valore p è \ int_ {x: f (x) <= k} f, dove f è il PDF di una statistica di prova e k è il valore osservato della statistica. Grazie ancora.
JDL

Per quanto riguarda la terza risposta, ciò che è dimostrato nella tua risposta è l'ingiustizia della moneta perché l'assunzione di equità è respinta. Al contrario, per dimostrare l'equità della moneta per contraddizione, devo assumere l'ingiustizia \ theta \ neq 0,5 e calcolare il valore p dei miei dati. Come posso farlo? Il mio punto è la difficoltà originata dal segno \ neq dell'assunto di ingiustizia. Devo introdurre un certo livello di tolleranza per correttezza, diciamo 0.4 <\ theta <0.6, e calcolare il valore p in termini di \ theta e integrarlo su 0 <\ theta <0.4 e 0.6 <\ theta <1?
JDL,

Un'altra domanda. Questo link spiega il valore p "unilaterale". Dice che il valore p unilaterale risponde a domande come "ipotesi nulla, che due popolazioni sono davvero le stesse ... qual è la possibilità che campioni selezionati casualmente avrebbero mezzi distanti (o più che) osservati in questo esperimento con il gruppo specificato ha la media più grande ? " È un uso appropriato del valore p unilaterale? Penso che l'ipotesi nulla stessa debba essere espressa come disuguaglianza in questo caso (invece di uguaglianza e test unilaterale).
JDL

1
@Zag, sono d'accordo invece con questa risposta: non si deve pensare al concetto di estrema in termini di probabilità. Meglio dire che in questo esempio la probabilità sotto il null viene utilizzata come statistica test - ma questo non è obbligatorio. Ad esempio, se il rapporto di verosimiglianza, come menzionato da whuber, viene utilizzato come statistica di test, in generale non metterà possibili campioni nello stesso ordine della probabilità sotto il valore null. Altre statistiche sono scelte per la massima potenza rispetto a un'alternativa specificata, o tutte le alternative, o per l'elevata potenza contro un insieme vagamente definito.
Scortchi - Ripristina Monica

8

tTPr(Tt)H0Pr(|Z||z|)2min[Pr(Zz),Pr(Zz)] perché abbiamo le tabelle appropriate. (Nota il raddoppio.)

Non è necessario per la statistica test mettere i campioni in ordine di probabilità sotto l'ipotesi nulla. Ci sono situazioni (come l'esempio di Zag) in cui qualsiasi altro modo sembrerebbe perverso (senza ulteriori informazioni su quali misure , quali tipi di discrepanze con sono di maggiore interesse, ecc.), Ma spesso vengono utilizzati altri criteri. Quindi potresti avere un PDF bimodale per la statistica test e ancora testare usando la formula sopra.rH0H0

(2) Sì, significano sotto .H0

(3) Un'ipotesi nulla come "La frequenza delle teste non è 0,5" è inutile perché non si sarebbe mai in grado di respingerla. È un valore composito nullo che include "la frequenza delle teste è 0,49999999", o quanto più ti piace. Che tu pensi in anticipo alla moneta o meno, scegli un'utile ipotesi nulla che attenga al problema. Forse più utile dopo l'esperimento è calcolare un intervallo di confidenza per la frequenza delle teste che ti mostra che non è chiaramente una moneta giusta, o è abbastanza vicino da essere giusto, oppure devi fare più prove per scoprirlo.

Un'illustrazione per (1):

Supponiamo di provare la correttezza di una moneta con 10 lanci. Ci sono risultati possibili. Eccone tre:210

HHHHHHHHHHHTHTHTHTHTHHTHHHTTTH

Probabilmente sarai d'accordo con me sul fatto che i primi due sembrano un po 'sospetti. Tuttavia le probabilità sotto il null sono uguali:

Pr(HHHHHHHHHH)=11024Pr(HTHTHTHTHT)=11024Pr(HHTHHHTTTH)=11024

Per arrivare ovunque è necessario considerare quali tipi di alternativa al null che si desidera verificare. Se sei pronto ad assumere l'indipendenza di ogni lancio sia in null sia in alternativa (e in situazioni reali questo spesso significa lavorare molto duramente per garantire che le prove sperimentali siano indipendenti), puoi usare il conteggio totale dei capi come statistica di prova senza perdere informazioni . (Partizionare lo spazio campione in questo modo è un altro lavoro importante che fanno le statistiche.)

Quindi hai un conteggio tra 0 e 10

t<-c(0:10)

La sua distribuzione sotto il null è

p.null<-dbinom(t,10,0.5)

Sotto la versione dell'alternativa che meglio si adatta ai dati, se vedi (diciamo) 3 su 10 capi la probabilità di capi è , quindi310

p.alt<-dbinom(t,10,t/10)

Prendi il rapporto della probabilità sotto il nullo alla probabilità sotto l'alternativa (chiamato rapporto di verosimiglianza):

lr<-p.alt/p.null

Paragonare con

plot(log(lr),p.null)

Quindi per questo null, le due statistiche ordinano i campioni allo stesso modo. Se si ripete con un valore nullo di 0,85 (ovvero test che la frequenza a lungo termine delle testine è dell'85%), non lo fanno.

p.null<-dbinom(t,10,0.85)
plot(log(lr),p.null)

lrt gof test

Per vedere il perché

plot(t,p.alt)

Alcuni valori di sono meno probabili in alternativa, e la statistica del test del rapporto di verosimiglianza ne tiene conto. NB questa statistica test non sarà estrema pert

HTHTHTHTHT

E va bene - ogni campione può essere considerato estremo da un certo punto di vista. Scegli la statistica del test in base al tipo di discrepanza rispetto al valore nullo che desideri essere in grado di rilevare.

... Continuando questo treno di pensieri, puoi definire una statistica che suddivide lo spazio campione in modo diverso per testare lo stesso null contro l'alternativa che un lancio di moneta influenza il successivo. Chiama il numero di esecuzioni , in modo cher

HHTHHHTTTH

ha :r=6

HH T HHH TTT H

La sequenza sospetta

HTHTHTHTHT

ha . Così far=10

THTHTHTHTH

mentre all'altro estremo

HHHHHHHHHHTTTTTTTTTT

avere . Usando la probabilità sotto il nullo come statistica test (il modo in cui ti piace) puoi dire che il valore p del campioner=1

HTHTHTHTHT

41024=1256


Dici che la definizione Pr (T \ ge t; H_0) può essere applicabile a qualsiasi PDF multimodale (ovviamente, incluso bimodale) di una statistica di prova. Quindi, tu e Zag fornite valori p diversi per PDF multimodale di una statistica di test. IMHO, la definizione di Zag è più ragionevole perché il ruolo di p-value è quantificare la probabilità (o strana) dell'osservazione sotto l'ipotesi nulla, come ha sottolineato. Qual è la tua logica per la definizione Pr (T \ ge t; H_0)?
JDL,

@JDL, questa è solo la definizione di un valore p. La domanda diventa quindi come trovare una statistica di test "buona" (e come definire "buona"). A volte la probabilità sotto il null (o qualsiasi funzione dei dati che fornisce lo stesso ordinamento) viene utilizzata come statistica del test. A volte ci sono buoni motivi per sceglierne altri, che riempiono molto spazio nei libri sulle statistiche teoriche. Penso che sia giusto dire che implicano una considerazione esplicita o implicita delle alternative. ...
Scortchi - Ripristina Monica

@JDL, ... E se una particolare osservazione ha una bassa probabilità sia in null che in alternativa, sembra ragionevole non considerarla estrema.
Scortchi - Ripristina Monica

Grazie per le tue risposte, @Scortchi. Ho pubblicato una nuova domanda e ho visto i tuoi commenti subito dopo la pubblicazione. Comunque, non sono ancora chiaro sulla definizione. Grazie ancora per le tue gentili risposte.
JDL,

Ho aggiunto un'illustrazione
Scortchi - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.