Due definizioni di p-value: come dimostrare la loro equivalenza?


11

Sto leggendo il libro di Larry Wasserman, All of Statistics , e attualmente sui valori p (pagina 187). Vorrei prima introdurre alcune definizioni (cito):

Definizione 1 La funzione di potenza di un test con regione di rifiuto è definita da La dimensione di un test è definita come Si dice che un test abbia livello \ alpha se la sua dimensione è minore o uguale \ alpha .R

β(θ)=Pθ(XR)
α=supθΘ0β(θ)
αα

Questo in pratica dice che α , la dimensione è la probabilità "più grande" di un errore di tipo I. Il valore p viene quindi definito tramite (I quote)

Definizione 2 Supponiamo che per ogni α(0,1) abbiamo un test size α con regione di rifiuto Rα . Quindi,

p-value=inf{α:T(Xn)Rα}
dove Xn=(X1,,Xn) .

Per me questo significa: dato un \ alpha specifico αc'è una regione di test e rifiuto Rα modo che α=supθΘ0(α)Pθ(T(Xn)Rα) . Per il valore p prendo semplicemente il più piccolo di tutti questi α .

Domanda 1 Se questo fosse il caso, allora potrei chiaramente scegliere α=ϵ per arbitrariamente piccolo ϵ . Qual è la mia interpretazione errata della definizione 2, ovvero cosa significa esattamente?

Ora Wasserman continua e afferma un teorema per avere una definizione "equivalente" di p -value con cui ho familiarità (cito):

Teorema Supponi che la dimensione test abbia la forma Quindi, dove è il valore osservato di .α

reject H0T(Xn)cα
p-value=supθΘ0Pθ(T(Xn)T(xn))
xnXn

Quindi, ecco la mia seconda domanda:

Domanda 2 Come posso effettivamente dimostrare questo teorema? Forse è dovuto al mio fraintendimento della definizione del valore , ma non riesco a capirlo.p


4
È stranamente strano che Wasserman definisca il potere come " ", poiché il simbolo è usato quasi universalmente per il tasso di errore di tipo II (cioè potere = 1- per quasi tutti gli altri autori che discutono di potere). Sto trovando difficile immaginare una scelta di notazione in grado di generare confusione peggiore se non intenzionalmente a causarla. βββ
Glen_b -Restate Monica

1
Concordo sul fatto che sia strano, Glen - tuttavia, Casella e Berger fanno la stessa cosa e il loro testo è, secondo me, il gold standard per la teoria statistica.
Matt Brems,

Risposte:


6

Abbiamo alcuni dati multivariati , tratti da una distribuzione con alcuni parametri sconosciuti . Si noti che sono risultati di esempio.xDθx

Vogliamo testare alcune ipotesi su un parametro sconosciuto , i valori di sotto l'ipotesi nulla sono nell'insieme .θθθ0

Nello spazio della , possiamo definire una regione di rifiuto , e la potenza di questa regione viene quindi definita come . Quindi la potenza viene calcolata per un particolare valore di come probabilità che il risultato del campione sia nella regione di rifiuto quando il valore di è . Ovviamente la potenza dipende dalla regione e dal scelto .XRRPθ¯R=Pθ¯(xR)θ¯θxR θθ¯Rθ¯

La definizione 1 definisce la dimensione della regioneR come supremo di tutti i valori di per in , quindi solo per i valori di sotto . Ovviamente questo dipende dalla regione, in modo .Pθ¯Rθ¯θ0θ¯H0αR=supθ¯θ0Pθ¯R

Dato che dipende da abbiamo un altro valore quando la regione cambia, e questa è la base per definire il valore p: cambia la regione, ma in modo tale che il valore osservato del campione appartenga ancora alla regione, per ciascuna di queste regioni, calcolare il come sopra definito e prendere l'estremo inferiore: . Quindi il valore p è la dimensione più piccola di tutte le regioni che contengono .αRRαRpv(x)=infR|xRαRx

Il teorema è quindi solo una sua "traduzione", vale a dire il caso in cui le regioni sono definite usando una statistica e per un valore si definisce una regione come . Se usi questo tipo di regione nel ragionamento sopra, il teorema segue.RTcRR={x|T(x)c}R

MODIFICA a causa di commenti:

@ user8: per il teorema; se si definiscono le regioni di rifiuto come nel teorema, una regione di rifiuto di dimensioni è un insieme che assomiglia a per alcuni .αRα={X|T(X)cα}cα

Per trovare il valore p di un valore osservato , ovvero devi trovare la regione più piccola , ovvero il valore più grande di tale che contiene ancora , quest'ultima (la regione contiene ) è equivalente (a causa del modo in cui le regioni sono definite) a dire che , quindi devi trovare il più grande tale chexpv(x)Rc{X|T(X)c} xxcT(x)c{X|T(X)c&cT(x)}

Ovviamente, il più grande tale che dovrebbe essere e quindi il set supra diventaccT(x)c=T(x){X|T(X)c=T(x)}={X|T(X)T(x)}


Mille grazie per la tua risposta. Per la domanda sulla convalida del teorema: non manca in qualche modo un over ? infα
matematica

@ user8: ho aggiunto un paragrafo alla fine della mia risposta, vedi il punto con l'infima ora?

7

Nella definizione 2, il valore di una statistica test è il limite inferiore più grande di tutto tale che l'ipotesi venga respinta per un test di dimensione . Ricordiamo che più piccolo facciamo , meno tolleranza stiamo tollerando per l'errore di tipo I, quindi diminuirà anche la regione di rifiuto . Quindi (molto) informalmente parlando, il -value è il più piccolo che possiamo scegliere che ci consente ancora di rifiutare per i dati che abbiamo osservato. Non possiamo scegliere arbitrariamente un più piccolo perché ad un certo punto,pαααRαpαH0αRα sarà così piccolo da escludere (ovvero non riuscire a contenere) l'evento che abbiamo osservato.

Ora, alla luce di quanto sopra, vi invito a riconsiderare il teorema.


Sono ancora un po 'confuso. Quindi, in primo luogo, nella definizione la statistica fissa per tutto ? Non sono d'accordo con la tua affermazione: "... ad un certo punto, sarà così piccolo che escluderà (cioè non riuscirà a contenere) l'evento che abbiamo osservato." Perfettamente bene, se è così piccolo da non contenere il campione osservato, non rifiutiamo . Qual è il problema con questo? grazie per l'aiuto / pazienza2TαRαRαH0
matematica

Sì. La statistica di test è una funzione fissa predeterminata del campione, dove "fisso" in questo senso significa che la forma della funzione non cambia per nessun . Il valore che assume può (e dovrebbe) dipendere dal campione. La tua affermazione "non rifiutiamo " rivela perché il tuo disaccordo non è corretto: per definizione , comprende l'insieme di tutti i valori per i quali la statistica del test porta al rifiuto del nulla . Ecco perché è etichettato per espulsione "R". Pubblicherò un aggiornamento alla mia risposta per spiegare in modo più dettagliato. TαH0RαR
heropup,

Mille grazie per la risposta rapida e in anticipo per la versione aggiornata. Quello che intendevo era il seguente: Rifiutiamo se , dove è il campione osservato. Dì che sono molto estremo e scegli molto piccolo, in modo che per il dato campione che significhi semplicemente NON respingere . Quindi un piccolo non è una brutta cosa. Chiaramente, ad un certo punto è così piccolo che è molto improbabile che osservi un campione appartenente a . Ancora una volta, grazie per la tua pazienza / aiuto. Molto apprezzato! H0T(xn)RαxnRαT(xn)RαH0RαRα
matematica,

2
La definizione data di p-value richiede esplicitamente che la statistica test per il campione sia nella regione di rifiuto . Non sei libero di modificare quella parte della definizione di p-value.
Glen_b -Restate Monica

@Glen_b Grazie per il commento. In effetti, il mio commento precedente viola la definizione. Grazie per segnalarlo.
matematica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.