Il valore P è definito la probabilità di ottenere una statistica test almeno estrema quanto ciò che si osserva, assumendo che l'ipotesi nulla sia vera. In altre parole,
Ma cosa succede se la statistica test è distribuzione bimodale? p-value significa qualcosa in questo contesto? Ad esempio, ho intenzione di simulare alcuni dati bimodali in R:
set.seed(0)
# Generate bi-modal distribution
bimodal <- c(rnorm(n=100,mean=25,sd=3),rnorm(n=100,mean=100,sd=5))
hist(bimodal, breaks=100)
E supponiamo di osservare un valore statistico di prova di 60. E qui sappiamo dall'immagine che questo valore è molto improbabile . Quindi idealmente, vorrei una procedura statistica che uso (diciamo, p-value) per rivelarlo. Ma se calcoliamo il valore p come definito, otteniamo un valore piuttosto elevato
observed <- 60
# Get P-value
sum(bimodal[bimodal >= 60])/sum(bimodal)
[1] 0.7991993
Se non conoscessi la distribuzione, concluderei che ciò che ho osservato è semplicemente casuale. Ma sappiamo che questo non è vero.
Immagino che la domanda che ho sia: perché, quando calcoliamo il valore p, calcoliamo la probabilità per i valori "almeno estremi" dell'osservato? E se trovo una situazione come quella che ho simulato sopra, qual è la soluzione alternativa?