Valore P in un test a due code con distribuzione nulla asimmetrica


18

La mia situazione è la seguente: voglio, attraverso uno studio di Monte-Carlo, confrontare i valori di due diversi test per la significatività statistica di un parametro stimato (null è "nessun effetto - il parametro è zero" e l' alternativa implicita è " il parametro non è zero "). Il test A è il "test t indipendente a due campioni indipendente per l'uguaglianza dei mezzi" , con varianze uguali sotto il valore nullo. p

Test B Mi sono costruito da solo. Qui, la distribuzione nulla utilizzata è una distribuzione discreta generica asimmetrica . Ma ho trovato il seguente commento in Rohatgi & Saleh (2001, 2a ed., P. 462)

"Se la distribuzione non è simmetrica, il valore non è ben definito nel caso su due lati, anche se molti autori raccomandano di raddoppiare il valore unilaterale"ppp .

Gli autori non ne discutono ulteriormente, né commentano il "suggerimento di molti autori" di raddoppiare il valore unilaterale. (Questo crea la domanda "raddoppia il valore di quale lato? E perché questo lato e non l'altro?)ppp

Non sono stato in grado di trovare altri commenti, opinioni o risultati su tutta questa faccenda. Capisco che con una distribuzione asimmetrica sebbene possiamo considerare un intervallo simmetrico attorno all'ipotesi nulla rispetto al valore del parametro, non avremo la seconda simmetria usuale, quella dell'allocazione di massa di probabilità. Ma non capisco perché questo renda il valore "non ben definito". Personalmente, usando un intervallo simmetrico attorno all'ipotesi nulla per i valori dello stimatore non vedo alcuna definizionepproblema nel dire "la probabilità che la distribuzione nulla produca valori uguali ai limiti o al di fuori di questo intervallo è XX". Il fatto che la massa di probabilità da un lato sia diversa dalla massa di probabilità dall'altro lato, non sembra causare problemi, almeno per i miei scopi. Ma è piuttosto più probabile che non Rohatgi e Saleh sappiano qualcosa che io non conosco.

Quindi questa è la mia domanda: in che senso il value è (o può essere) "non ben definito" nel caso di un test su due lati quando la distribuzione nulla non è simmetrica?p

Una nota forse importante: mi avvicino maggiormente alla questione in uno spirito di pescatori, non sto cercando di ottenere una regola decisionale rigorosa nel senso di Neyman-Pearson. Lascio che l'utente del test utilizzi le informazioni -value insieme a qualsiasi altra informazione per fare inferenze.p


4
Oltre agli approcci basati sulla verosimiglianza ("Fisherian") e basati su LR (NP), un altro metodo considera come ottenere brevi intervalli di confidenza e usa quelli per il test delle ipotesi. Questo viene fatto nello spirito della teoria delle decisioni (e usando i suoi metodi), dove la lunghezza è inclusa nella funzione di perdita. Per distribuzioni simmetriche unimodali della statistica del test, ovviamente gli intervalli più brevi possibili sono ottenuti usando intervalli simmetrici (essenzialmente "raddoppiando il valore p" dei test unilaterali). Gli intervalli più brevi dipendono dalla parametrizzazione: quindi non possono essere pescatori.
whuber

Mi chiedevo se le risposte pubblicate qui fossero applicabili anche alle distribuzioni beta. Grazie.
JLT,

@JLT: Sì, perché no?
Scortchi - Ripristina Monica

Risposte:


12

Se esaminiamo il test esatto 2x2 e lo consideriamo come il nostro approccio, ciò che è "più estremo" potrebbe essere misurato direttamente da una "bassa probabilità". (Agresti [1] menziona una serie di approcci di vari autori per calcolare due valori p a coda solo per questo caso del test esatto Fisher 2x2, di cui questo approccio è uno dei tre specificamente discussi come "i più popolari".)

Per una distribuzione continua (unimodale), trovi semplicemente il punto nell'altra coda con la stessa densità del valore del tuo campione e tutto ciò che ha una probabilità uguale o inferiore nell'altra coda viene conteggiato nel tuo calcolo del valore p.

Per le distribuzioni discrete che sono monotonicamente non aumentanti nelle code, è altrettanto semplice. Conta semplicemente tutto con una probabilità uguale o inferiore rispetto al tuo campione, che alla luce delle ipotesi che ho aggiunto (per adattare il termine "code" all'idea), fornisce un modo per elaborarlo.

Se hai familiarità con gli intervalli HPD (e di nuovo, abbiamo a che fare con l'unimodalità), è fondamentalmente come prendere tutto al di fuori di un intervallo HPD aperto che è limitato in una coda dalla tua statistica di esempio.

inserisci qui la descrizione dell'immagine

[Per ribadire - questa è la probabilità sotto il nulla che stiamo equiparando qui.]

Quindi, almeno nel caso unimodale, sembra abbastanza semplice emulare l'esatto test di Fisher e parlare ancora delle due code.

Tuttavia, potresti non aver intenzione di invocare lo spirito del test esatto di Fisher in questo modo.

Quindi, pensando al di fuori dell'idea di ciò che rende qualcosa "come, o più estremo" per un momento, andiamo solo leggermente più verso la fine delle cose di Neyman-Pearson. Può aiutare (prima del test!) A definire la definizione di una regione di rifiuto per un test condotto a un livello generico (non voglio dire che devi calcolarne letteralmente uno, proprio come lo calcoleresti). Non appena lo fai, il modo di calcolare due valori di coda per il tuo caso dovrebbe diventare ovvio.α

Questo approccio può essere prezioso anche se si sta conducendo un test al di fuori del normale test del rapporto di verosimiglianza. Per alcune applicazioni, può essere difficile capire come calcolare i valori p nei test di permutazione asimmetrica ... ma spesso diventa sostanzialmente più semplice se si pensa prima a una regola di rifiuto.

Con i test F di varianza, ho notato che il "valore p della doppia coda" può dare valori p abbastanza diversi a quello che vedo come il giusto approccio. [Non dovrebbe importare quale gruppo chiami "campione 1" o se inserisci la varianza maggiore o minore nel numeratore.]

[1]: Agresti, A. (1992),
A Survey of Exact Inference for Contingency Tables
Statistical Science , Vol. 7 , n. 1. (febbraio), pagg. 131-153.


1
ctd ... Se stiamo eseguendo un test del rapporto di verosimiglianza, il rapporto di verosimiglianza è sempre a una coda, ma se costruiamo un test a due code equivalente basato su alcune statistiche, cerchiamo comunque di ridurre i rapporti di verosimiglianza per individuare "più estremi"
Glen_b

2
Il raddoppio del valore p a una coda potrebbe essere difeso come correzione di Bonferroni per l'esecuzione di due test a una coda. Dopotutto, a seguito di un test a due code, di solito siamo molto inclini a considerare ogni dubbio gettato sulla verità del nulla come favorendo un'altra ipotesi la cui direzione è determinata dai dati.
Scortchi - Ripristina Monica

1
@Alecos è abbastanza semplice da giustificare una scelta simmetrica! Trovo difficile vedere come avresti letto ciò che ho scritto, suggerendo che una scelta simmetrica non era in alcun modo una cosa valida da fare (tale scelta è coperta dalla discussione che ho dato sulla regola del rifiuto: puoi facilmente costruire una simmetrica regola di rifiuto). La prima parte della mia risposta stava rispondendo alla parte nella domanda su Fisher. Se chiedi di Fisher, non dovrei discutere di ciò che sembra che Fisher potrebbe fare, sulla base di ciò che ha fatto in circostanze simili? Sembra che tu interpreti la mia risposta dicendo più di quello che è.
Glen_b

1
@Alecos In particolare, non sto sostenendo gli approcci di Fisher o Neyman Pearson (se stiamo parlando di test del rapporto di verosimiglianza o solo test di ipotesi più in generale), né dovresti considerarmi come un tentativo di suggerire che tutto ciò che ho omesso potrebbe essere sbagliato . Sto solo discutendo una serie di cose che sembra stiate sollevando nella vostra domanda.
Glen_b

2
Alla fine sì. La cosa bella dell'approccio di Fisher è che fornisce un modo molto ragionevole di arrivare a un valore p senza nemmeno avere un'alternativa. Ma se hai alternative specifiche di interesse, puoi indirizzare la tua regione di rifiuto più o meno precisamente a quelle alternative dichiarando le parti dello spazio campione in cui le alternative tenderanno a mettere i tuoi campioni come regione di rifiuto. Una statistica di prova, T, è un modo conveniente per raggiungerlo, in sostanza associando un singolo numero a ciascun punto in esso (dandoci un "più estremo" misurato da T). ... ctd
Glen_b -Restate Monica

9

Un valore p è ben definito quando si crea una statistica di test che suddivide lo spazio campione e ordina le partizioni in base alle proprie nozioni di crescente discrepanza con l'ipotesi nulla. (O, equivalentemente, una volta creato un insieme di regioni di rifiuto nidificate di dimensioni decrescenti.) Quindi ciò che R. e S. stanno ottenendo è che se consideri i valori alti o bassi di una statistica essere interessante in contrasto con il tuo null ipotesi che hai ancora un po 'di lavoro da fare per ottenere una statistica test corretta da esso. Quando ha una distribuzione simmetrica attorno a nulla, sembrano saltare asenza pensarci troppo, e quindi considerare il caso asimmetrico come presentare un puzzle.T S T = | S |STST=|S|

S 2 tt=min(PrH0(S<s),PrH0(S>s))S2t

Quando ha una distribuzione continua, l'approccio alla formazione di un test a due code mostrato da @ Glen_b — che definisce la densità di come statistica del test: —correrà naturalmente valori p validi; ma non sono sicuro che sia mai stato raccomandato da Fisher o che sia attualmente raccomandato dai neo-pescatori. Se a prima vista sembra in qualche modo più di principio che raddoppiare il valore p a una coda, si noti che dover trattare con la densità di probabilità piuttosto che la massa significa che il valore p a due code così calcolato può cambiare quando la statistica test è trasformato da una funzione di conservazione dell'ordine. Ad esempio, se per verificare il nulla che una media gaussiana è uguale a nulla, si prende una singola osservazione e si ottieneSST=fS(S)X1.66, il valore con uguale densità all'altra coda è e il valore quindiMa se lo consideri testando il nulla che una media geometrica log-gaussiana è uguale a una e prendi una singola osservazione e ottieni , il valore con uguale densità sull'altra coda è ( ), quindi il valore quindi1.66

p=Pr(X>1.66)+Pr(X<1.66)=0.048457+0.048457=0.09691.
Ye1.66=5.25930.025732=e3.66
p=Pr(Y>5.2593)+Pr(Y<0.025732)=0.048457+0.00012611=0.04858.

inserisci qui la descrizione dell'immagine

Si noti che le funzioni di distribuzione cumulativa sono invarianti rispetto alle trasformazioni che preservano l'ordine, quindi nell'esempio sopra il raddoppio del valore p più basso dà

p=2t=2min(Pr(X<1.66),Pr(X>1.66))=2min(Pr(Y<5.2593),Pr(Y>5.2593))=2min(0.048457,0.951543)=2×0.048457=0.09691.

Una specie di sequel di questa risposta, che discute alcuni principi di costruzione del test in cui è esplicitamente dichiarata l'ipotesi alternativa, può essere trovata qui .

† Quando ha una distribuzione discreta, scrivereS

pL=PrH0(Ss)
pU=PrH0(Ss)

per i valori p inferiori e superiori a una coda, il valore p a due code è dato da

Pr(Tt)={pL+PrH0(PUpL)when pLpUpU+PrH0(PLpU)otherwise

; cioè aggiungendo al valore p una-coda più piccolo il valore p più grande ottenibile nell'altra coda che non lo supera. Si noti che è ancora un limite superiore.2t


1
Oh wow Questo è un ottimo punto, +1. Qual è il tuo consiglio allora? Inoltre, posso interpretare questa discrepanza come corrispondente a diverse (in questo caso implicite) statistiche di test?
ameba dice Ripristina Monica il

1
@amoeba: non un errore di battitura! E quando osservi 1.66 prendi il minimo di 0,952 e 0,048. Se effettivamente osservassi -3.66 sarebbe il minimo di 0,0001 e 0,9999.
Scortchi - Ripristina Monica

1
@Scortchi Ho appena accettato la risposta di Glen_b perché mi è stata più "utile" in senso stretto. Ma la tua mi ha aiutato a evitare la trappola di pensare che "questo è tutto", che è un'eccellente polizza assicurativa per i rischi futuri. Grazie ancora.
Alecos Papadopoulos,

1
@Scortchi Sono d'accordo; la mia risposta ha preso una visione piuttosto semplicistica e unilaterale, e dovrei qualificare, estendere e giustificare la risposta. Probabilmente lo farò in più fasi.
Glen_b

1
@Glen_b: Grazie, non vedo l'ora. Voglio anche estendere il mio per mostrare come i test di punteggio e i test di verosimiglianza generalizzati danno risposte diverse (in generale); e la teoria dei test imparziali merita sicuramente di essere menzionata in questo contesto (ma riesco a malapena a ricordarlo).
Scortchi - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.