Tralasciando alcune questioni pratiche (come la misura in cui è arbitraria, per esempio), le definizioni di livello di significatività e valore p rendono la risposta a questa domanda inequivocabile.α
Vale a dire, formalmente, la regola del rifiuto è che rifiuti quando .p=α
Dovrebbe davvero importare solo per il caso discreto, ma in quella situazione, se non rifiuti quando , il tuo tasso di errore di tipo I non sarà effettivamente α !p=αα
(Per quanto mi riguarda non esiste una citazione "autorevole"; devi davvero fare i conti con gli approcci di Neyman-Pearson e Fisherian ai test di ipotesi, ed è qualcosa che si è sviluppato nel tempo.)
Esistono numerosi buoni testi statistici che descrivono correttamente il test delle ipotesi.
La definizione di p-value è data correttamente nella prima frase del pertinente articolo di Wikipedia *:
il valore p è la probabilità di ottenere una statistica test almeno estrema quanto quella effettivamente osservata, supponendo che l'ipotesi nulla sia vera.
* (e no, Wikipedia non è un'autorità, sto solo dicendo che la definizione è giusta)
Per semplicità, atteniamoci ai punti null; serve a far passare il punto senza confondere le acque con problemi aggiuntivi.
Ora il livello di significatività, α è il tasso di errore di tipo I selezionato. Questo è il tasso che scegli l'ipotesi nulla da rifiutare quando è vera. Cioè, è la proporzione del tempo in cui dovresti rifiutare il null. Consideriamo ora una statistica test con una distribuzione discreta - l'unica volta che un di esattamente α è effettivamente possibile **. (In genere accade anche che l'alfa reale sarà diversa da qualcosa di bello e rotondo come il 5%.)p α
** Beh, immagino di limitare la mia discussione solo a statistiche di test distribuite in modo puramente discreto o puramente continuo. Nel caso misto, puoi capire come si applica la mia discussione discreta (nelle situazioni in cui si applica).
ad esempio prendere in considerazione un test del segno a due code con , diciamo. Il livello di significatività più vicino raggiungibile al 5% è 4,904%. Quindi scegliamo αn=17 (o per essere più precisi, 137500α=4.904% ).137500217
Quindi, quando è vero, qual è il tasso di rifiuto se rifiutiamo quandoH0 ? Possiamo risolverlo. È 4.904% - è l' α che abbiamo scelto.p=αα
D'altra parte, quando è vero, qual è il tasso di rifiuto se non rifiutiamo quandoH0 ? Possiamo risolverlo. È solo l'1,27%. È molto meno di α . Non è il test a cui ci siamo iscritti!p=αα
Cioè, i nostri test (abbastanza chiaramente!) Hanno le proprietà desiderate se è nella regione di rifiuto.p=α
[Adesso consideriamo la tua situazione. Il tuo valore p è effettivamente esattamente il 5%? Scommetto che non è esattamente quello, per diversi motivi. Ma in ogni caso, puoi affermare che formalmente, è un rifiuto.]p=α
Se descrivi in anticipo la tua regola di rifiuto e mostri che (se le ipotesi sono soddisfatte), ha il livello di significatività desiderato, quindi probabilmente non c'è bisogno di riferimenti.
Una regola di rifiuto è semplicemente un'affermazione su quali valori della statistica test provochino il rifiuto di . È equivalente alla definizione della regione di rifiuto (per la quale vedere Casella e Berger,Statistical Inference, p346, che definisce il termineregione di rifiutoin termini semplici).H0
Lo stesso libro definisce i valori p (p364) in termini diversi rispetto a wikipedia (ma lo stesso significato risultante) - cioè lo definisce come (per un dato set di dati), il più piccolo che porterebbe al rifiuto del nulla.α
(Se hai un'edizione diversa, i numeri di pagina possono cambiare, ma ha un indice, quindi puoi cercare i termini; attenzione, potrebbe essere necessario guardare gli elenchi in "Test di ipotesi" o qualcosa di simile nell'indice per trovare 'regione di rifiuto')
Hmm, proviamo un altro libro dallo scaffale. Wackerly, Mendenhall & Scheaffer Mathematical Statistics with Applications, 5a edizione , definisce una regione di rifiuto su p412 e un valore p (stessa definizione di C&B) su p431.