Confronto e contrasto, valori p, livelli di significatività ed errore di tipo I.

Mi chiedevo se qualcuno potesse dare un riassunto conciso delle definizioni e degli usi dei valori p, del livello di significatività e dell'errore di tipo I.

Comprendo che i valori di p sono definiti come "la probabilità di ottenere una statistica di test almeno estrema quanto quella che abbiamo effettivamente osservato", mentre un livello di significatività è solo un valore di interruzione arbitrario per valutare se il valore di p è significativo o no . L'errore di tipo I è l'errore di un'ipotesi nulla respinta che era vera. Tuttavia, non sono sicuro della differenza tra il livello di significatività e l'errore di tipo I, non sono lo stesso concetto?

Ad esempio, supponi un esperimento molto semplice in cui lancio una moneta 1000 volte e conto il numero di volte in cui finisce sulle "teste". La mia ipotesi nulla, H0, è che heads = 500 (moneta imparziale). Ho quindi impostato il livello di significatività su alpha = 0,05.

Lancio la moneta 1000 volte e quindi calcolo il valore p, se il valore p è> 0,05, allora non riesco a rifiutare l'ipotesi nulla e se il valore p è <0,05, quindi rifiuto l'ipotesi nulla.

Ora, se avessi ripetutamente fatto questo esperimento, ogni volta calcolando il valore p e rifiutando o non riuscendo a rifiutare l'ipotesi nulla e tenendo conto di quanti ho rifiutato / non ho rifiutato, finirei per rifiutare il 5% delle ipotesi null che erano in realtà veri, è corretto? Questa è la definizione di errore di tipo I. Pertanto, il livello di significatività nei test di significatività di Fisher è essenzialmente l'errore di tipo I del test di ipotesi di Neyman-Pearson se hai eseguito esperimenti ripetuti.

Ora per quanto riguarda i valori di p, se avessi ottenuto un valore di p di 0,06 dal mio ultimo esperimento e avessi fatto più esperimenti e avessi contato tutti quelli che avevo ottenuto un valore di p da 0 a 0,06, allora non avrei anche un 6% di probabilità di respingere una vera ipotesi nulla?

— BYS2
fonte

Risposte:

La domanda sembra semplice, ma il tuo riflesso al riguardo mostra che non è così semplice.

In realtà, i valori di p sono un'aggiunta relativamente recente alla teoria della statistica. Il calcolo di un valore p senza un computer è molto noioso; questo è il motivo per cui l'unico modo per eseguire un test statistico fino a poco tempo fa era usare tabelle di test statistici, come spiego in questo post sul blog . Poiché tali tabelle sono state calcolate per livelli fissi (in genere 0,05, 0,01 e 0,001), è possibile eseguire un test solo con tali livelli. $\alpha$

I computer hanno reso inutili quelle tabelle, ma la logica dei test è sempre la stessa. Dovresti:

Formulare un'ipotesi nulla.
Formulare un'ipotesi alternativa.
Decidi un errore massimo di tipo I (la probabilità di respingere falsamente l'ipotesi nulla) che sei pronto ad accettare.
Progetta una regione di rifiuto. La probabilità che la statistica del test cada nella regione del rifiuto dato che l'ipotesi nulla è il tuo livello . Come spiega @ MånsT, questo non dovrebbe essere inferiore all'errore accettabile di tipo I e in molti casi usare approssimazioni asintotiche. $\alpha$
Esegui l'esperimento casuale, calcola la statistica del test e verifica se rientra nella regione di rifiuto.

In teoria, esiste una stretta equivalenza tra gli eventi "la statistica cade nella regione del rifiuto" e "il valore p è inferiore a " $\alpha$ , motivo per cui si ritiene che sia possibile segnalare invece il valore p . In pratica, consente di saltare il passaggio 3. e valutare l'errore di tipo I al termine del test .

Per tornare al tuo post, l'affermazione dell'ipotesi nulla è errata. L'ipotesi nulla è che la probabilità di lanciare una testa è (l'ipotesi nulla non può riguardare i risultati dell'esperimento casuale). $1/2$

Se ripeti l'esperimento ancora e ancora con un valore p di soglia di 0,05, sì, dovresti avere un rifiuto di circa il 5%. E se imposti un cut-off del valore p di 0,06, dovresti finire con un rifiuto di circa il 6%. Più in generale, per prove continue, per definizione del valore $p$

P r o B (p < X) = X, (0 < X < 1),

$Prob(p < x) = x, \, (0 < x < 1),$

che è solo approssimativamente vero per i test discreti.

Ecco qualche codice R che spero possa chiarire un po 'questo. Il test binomiale è relativamente lento, quindi eseguo solo 10.000 esperimenti casuali in cui lancio 1000 monete. Eseguo un test binomiale e raccolgo i 10.000 valori p.

set.seed(123)
# Generate 10,000 random experiments of each 1000 coin flipping
rexperiments <- rbinom(n=10000, size=1000, prob=0.5)
all_p_values <- rep(NA, 10000)
for (i in 1:10000) {
    all_p_values[i] <- binom.test(rexperiments[i], 1000)$p.value
}
# Plot the cumulative density of p-values.
plot(ecdf(all_p_values))
# How many are less than 0.05?
mean(all_p_values < 0.05)
# [1] 0.0425
# How many are less than 0.06?
mean(all_p_values < 0.06)
# 0.0491

Puoi vedere che le proporzioni non sono esatte, perché la dimensione del campione non è infinita e il test è discreto, ma c'è ancora un aumento di circa l'1% tra i due.

— gui11aume
fonte

@ Grazie MånsT! +1 per te per la distinzione tra prove continue e discrete (che avrei onestamente completamente ignorato).

— gui11aume,

@ gui11aume, grazie per il tuo contributo! Tuttavia, la tua affermazione "i valori di p sono un'aggiunta relativamente recente alla teoria della statistica" è strana. Da quello che ho letto, il "test di significatività" di Fisher con valori p ebbe origine intorno al 1925. Mentre i "test di ipotesi" di Neyman-Pearson nacquero come un "miglioramento" del lavoro di Fisher alcuni anni dopo. Mentre è vero che i valori p erano difficili da calcolare (quindi perché venivano usati livelli standard di significatività), il suo lavoro era monumentale. In realtà, viene definito "il padre della statistica" perché ha costituito la base di gran parte delle statistiche moderne.

— BYS2

@ BYS2 Assolutamente giusto (+1). La teoria dei valori p risale all'origine della statistica. È il loro uso pervasivo che è recente. Grazie per

— averlo

@guillaume grazie per quello, ho un'altra domanda veloce però. Dici che la mia ipotesi nulla non può essere H 0 = 500 ma mi sembra che numerosi testi usino ad esempio: nul l ipotesi è che la media sarà 0 o che la differenza nelle medie sarà 10 .. Non ho mai avuto problemi facendolo in questo modo: s .. La distribuzione t essenzialmente scala solo se ho usato H0 = 500 invece di H0 = 0,5

— BYS2

@ gui11aume: forse potrebbe essere interessante dare un'occhiata alla mia risposta: stats.stackexchange.com/questions/166323/…

Stai ricevendo buone risposte qui da @MansT & @ gui11aume (+1 a ciascuno). Fammi vedere se riesco a ottenere più esplicitamente qualcosa in entrambe le loro risposte.

$n$ $k$

p (K) = \frac{n!}{K! (n - K)!} p^{K} (1 - p)^{n - K}

$p(k)=\frac{n!}{k!(n-k)!}p^k(1-p)^{n-k}$

α = .05

$\alpha=.05$

number of heads:           0    1    2    3    4    5    6    7    8    9   10
individual probability:  .001 .010 .044 .117 .205 .246 .205 .117 .044 .010 .001
type I error rate:       .002 .021 .109 .344 .754   1  .754 .344 .109 .021 .002

$\alpha=.05$ $.021$ $\alpha\ne\text{type I error}$ $\alpha$ $.05$ probabilità binomiali. Si noti inoltre che situazioni come questa hanno spinto lo sviluppo del valore p medio per aiutare a minimizzare la discrepanza tra il valore p e il livello di significatività.

Ci possono essere casi in cui il valore p calcolato non corrisponde al tasso di errore di tipo I di lungo periodo, oltre al fatto che il tasso di errore di tipo I non è necessariamente uguale al livello di significatività. Considera una tabella di contingenza 2x2 con questi conteggi osservati:

     col1 col2
row1   2    4   
row2   4    2

$\chi^2$ $\chi^2_{1}=1.3, p=.248$ $\chi^2$ $\chi^2$ $p=.5671$ $.5637\ne .5671$

Quindi, i problemi qui sono che, con dati discreti:

il tuo livello di significatività preferito potrebbe non essere uno dei possibili tassi di errore di tipo I, e
l'uso di approssimazioni (convenzionali) a statistiche continue produrrà valori p calcolati inesatti.

$N$

(Sebbene la domanda non ponga delle soluzioni a questi problemi) ci sono alcune cose che mitigano questi problemi:

$N$
ci sono spesso correzioni (come la correzione di Yates per la continuità) che avvicinano i valori calcolati ai valori corretti,
$N$
il valore medio p offre la possibilità di avvicinare il tasso di errore di tipo I al livello di confidenza prescelto,
puoi usare esplicitamente uno dei tassi di errore di tipo I esistenti (o notare quale sarebbe).

— gung - Ripristina Monica
fonte

Fantastico che tu abbia approfondito i dettagli che abbiamo lasciato sul lato (+1).

— gui11aume,

@gung - potresti commentare come hai ottenuto i tassi di errore di tipo I per la prima tabella?

— stats134711,

@ stats134711, è solo la somma delle singole probabilità per le opzioni estreme o più estreme (a 2 code).

— gung - Ripristina Monica

I concetti sono infatti intimamente collegati tra loro.

Il livello di significatività è la probabilità di un errore di tipo I , o meglio, la presunta probabilità di un tale evento. ${\rm P}({\rm type~I~error})= \alpha$ $\alpha$ ${\rm P}({\rm type~I~error})\leq \alpha$ $\alpha$ ${\rm P}({\rm type~I~error})\approx \alpha$ $\alpha$

Il valore p è il livello di significatività più basso al quale l'ipotesi nulla sarebbe accettata . Quindi ci dice "quanto sia significativo" il risultato.

— MånsT
fonte