Se la distribuzione della statistica del test è bimodale, il valore p significa qualcosa?


12

Il valore P è definito la probabilità di ottenere una statistica test almeno estrema quanto ciò che si osserva, assumendo che l'ipotesi nulla sia vera. In altre parole,

Ma cosa succede se la statistica test è distribuzione bimodale? p-value significa qualcosa in questo contesto? Ad esempio, ho intenzione di simulare alcuni dati bimodali in R:

P(Xt|H0)
set.seed(0)
# Generate bi-modal distribution
bimodal <- c(rnorm(n=100,mean=25,sd=3),rnorm(n=100,mean=100,sd=5)) 
hist(bimodal, breaks=100)

inserisci qui la descrizione dell'immagine

E supponiamo di osservare un valore statistico di prova di 60. E qui sappiamo dall'immagine che questo valore è molto improbabile . Quindi idealmente, vorrei una procedura statistica che uso (diciamo, p-value) per rivelarlo. Ma se calcoliamo il valore p come definito, otteniamo un valore piuttosto elevato

observed <- 60

# Get P-value
sum(bimodal[bimodal >= 60])/sum(bimodal)
[1] 0.7991993

Se non conoscessi la distribuzione, concluderei che ciò che ho osservato è semplicemente casuale. Ma sappiamo che questo non è vero.

Immagino che la domanda che ho sia: perché, quando calcoliamo il valore p, calcoliamo la probabilità per i valori "almeno estremi" dell'osservato? E se trovo una situazione come quella che ho simulato sopra, qual è la soluzione alternativa?


7
Benvenuti nel meraviglioso mondo dei test di significatività dell'ipotesi nulla! Seriamente: onestamente non riesco a pensare a una statistica di test che abbia una distribuzione bimodale sotto l'ipotesi nulla (che è quella a cui teniamo nel NHST). Quindi +1 per una domanda interessante, ma dubito della sua rilevanza pratica ... a meno che tu non abbia in mente un esempio specifico?
Stephan Kolassa,

1
Sono d'accordo con @StephanKolassa; ci sono certamente distribuzioni di dati che sono bimodali, ma che tipo di statistica test è?
Peter Flom - Ripristina Monica

7
Non sarei d'accordo con la caratterizzazione dei valori di p suggeriti dalla prima formula. Il corretto senso di "almeno altrettanto estremo" nella teoria di Neyman-Pearson è in termini di probabilità relativa e non in termini di ordinamento ordinario dei reali (come indicato nella formula). I due sono equivalenti in molte situazioni di test standard ma differiscono nettamente quando la distribuzione del campionamento è bimodale. Questa distinzione risolverà quindi la domanda in modo soddisfacente, penso.
whuber

@whuber Puoi per favore approfondire un po 'questo, forse con un semplice esempio?
Szabolcs,

2
Gθ(θ,θ)θ1Fθ(x)Gθ(x)Gθ(x)x[1,1]F1F2±1/2XFθH0:XF1 HA:XF2±11/21/2θ=2

Risposte:


5

Ciò che rende una statistica di test "estrema" dipende dalla tua alternativa, che impone un ordinamento (o almeno un ordine parziale) sullo spazio del campione - cerchi di respingere quei casi più coerenti (nel senso misurato da una statistica di test) con l'alternativa.

Quando non si ha realmente avete un'alternativa per darvi un qualcosa di cui essere più coerente con, si sta sostanzialmente lasciato con la possibilità di dare l'ordine, più spesso visto in test esatto di Fisher. Lì, la probabilità dei risultati (le tabelle 2x2) sotto lo zero ordina la statistica del test (in modo che "estremo" sia "bassa probabilità").

Se ti trovassi in una situazione in cui l'estrema sinistra (o l'estrema destra o entrambi) della tua distribuzione nulla bimodale era associata al tipo di alternativa che ti interessava, non avresti cercato di rifiutare una statistica di test di 60. Ma se ti trovi in ​​una situazione in cui non hai un'alternativa del genere, quindi 60 è insolito - ha una bassa probabilità; un valore di 60 non è coerente con il tuo modello e ti porterebbe a rifiutare.

[Questo sarebbe visto da alcuni come una differenza centrale tra i test di ipotesi Fisherian e Neyman-Pearson. Introducendo un'alternativa esplicita e un rapporto di probabilità, una bassa probabilità sotto il nulla non ti farà necessariamente rifiutare in un framework Neyman-Pearson (purché si esibisca relativamente bene rispetto all'alternativa), mentre per Fisher, non hai davvero un'alternativa e la probabilità sotto il nulla è ciò che ti interessa.]

Non sto suggerendo che entrambi gli approcci siano giusti o sbagliati qui: vai avanti e cerchi da solo su quale tipo di alternative cerchi il potere, che sia specifico o solo qualcosa che è abbastanza improbabile sotto il nulla. Una volta che sai cosa vuoi, il resto (incluso ciò che significa "almeno estremo") ne consegue praticamente.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.