P = 5,0% è significativo?


14

Oggi mi è stato chiesto se un valore p di 0,05 (esattamente) sia considerato significativo (dato alfa = 5%) o meno. Non conoscevo la risposta e Google ha trovato entrambe le risposte: (a) il risultato è significativo se p è inferiore al 5% e (b) se p è inferiore al 5% o uguale al 5%.

Naturalmente, nessuno di questi siti web ha citato nessuno. Perché dovremmo farlo: è conoscenza comune e il 5% è comunque arbitrario. Ma questo non mi aiuterà a dire ai miei studenti qualcosa da ricordare.

Quindi, ecco le mie domande disperate sul test delle ipotesi: se il valore p è esattamente l'alfa, considero il risultato significativo o no? E qual è la citazione autorevole in questo caso?

Grazie mille

Risposte:


19

Tralasciando alcune questioni pratiche (come la misura in cui è arbitraria, per esempio), le definizioni di livello di significatività e valore p rendono la risposta a questa domanda inequivocabile.α

Vale a dire, formalmente, la regola del rifiuto è che rifiuti quando .p=α

Dovrebbe davvero importare solo per il caso discreto, ma in quella situazione, se non rifiuti quando , il tuo tasso di errore di tipo I non sarà effettivamente α !p=αα

(Per quanto mi riguarda non esiste una citazione "autorevole"; devi davvero fare i conti con gli approcci di Neyman-Pearson e Fisherian ai test di ipotesi, ed è qualcosa che si è sviluppato nel tempo.)

Esistono numerosi buoni testi statistici che descrivono correttamente il test delle ipotesi.

La definizione di p-value è data correttamente nella prima frase del pertinente articolo di Wikipedia *:

il valore p è la probabilità di ottenere una statistica test almeno estrema quanto quella effettivamente osservata, supponendo che l'ipotesi nulla sia vera.

* (e no, Wikipedia non è un'autorità, sto solo dicendo che la definizione è giusta)

Per semplicità, atteniamoci ai punti null; serve a far passare il punto senza confondere le acque con problemi aggiuntivi.

Ora il livello di significatività, α è il tasso di errore di tipo I selezionato. Questo è il tasso che scegli l'ipotesi nulla da rifiutare quando è vera. Cioè, è la proporzione del tempo in cui dovresti rifiutare il null. Consideriamo ora una statistica test con una distribuzione discreta - l'unica volta che un di esattamente α è effettivamente possibile **. (In genere accade anche che l'alfa reale sarà diversa da qualcosa di bello e rotondo come il 5%.)p α

** Beh, immagino di limitare la mia discussione solo a statistiche di test distribuite in modo puramente discreto o puramente continuo. Nel caso misto, puoi capire come si applica la mia discussione discreta (nelle situazioni in cui si applica).

ad esempio prendere in considerazione un test del segno a due code con , diciamo. Il livello di significatività più vicino raggiungibile al 5% è 4,904%. Quindi scegliamo αn=17 (o per essere più precisi, 137500α=4.904% ).137500217

Quindi, quando è vero, qual è il tasso di rifiuto se rifiutiamo quandoH0 ? Possiamo risolverlo. È 4.904% - è l' α che abbiamo scelto.p=αα

D'altra parte, quando è vero, qual è il tasso di rifiuto se non rifiutiamo quandoH0 ? Possiamo risolverlo. È solo l'1,27%. È molto meno di α . Non è il test a cui ci siamo iscritti!p=αα

Cioè, i nostri test (abbastanza chiaramente!) Hanno le proprietà desiderate se è nella regione di rifiuto.p=α

[Adesso consideriamo la tua situazione. Il tuo valore p è effettivamente esattamente il 5%? Scommetto che non è esattamente quello, per diversi motivi. Ma in ogni caso, puoi affermare che formalmente, è un rifiuto.]p=α

Se descrivi in anticipo la tua regola di rifiuto e mostri che (se le ipotesi sono soddisfatte), ha il livello di significatività desiderato, quindi probabilmente non c'è bisogno di riferimenti.

Una regola di rifiuto è semplicemente un'affermazione su quali valori della statistica test provochino il rifiuto di . È equivalente alla definizione della regione di rifiuto (per la quale vedere Casella e Berger,Statistical Inference, p346, che definisce il termineregione di rifiutoin termini semplici).H0

Lo stesso libro definisce i valori p (p364) in termini diversi rispetto a wikipedia (ma lo stesso significato risultante) - cioè lo definisce come (per un dato set di dati), il più piccolo che porterebbe al rifiuto del nulla.α

(Se hai un'edizione diversa, i numeri di pagina possono cambiare, ma ha un indice, quindi puoi cercare i termini; attenzione, potrebbe essere necessario guardare gli elenchi in "Test di ipotesi" o qualcosa di simile nell'indice per trovare 'regione di rifiuto')

Hmm, proviamo un altro libro dallo scaffale. Wackerly, Mendenhall & Scheaffer Mathematical Statistics with Applications, 5a edizione , definisce una regione di rifiuto su p412 e un valore p (stessa definizione di C&B) su p431.


Grazie. Per favore, permettimi la domanda stupida di un "utente pratico di statistiche": dove tranne Wikipedia troverò questa definizione e / o regola di rifiuto, a cui fai riferimento? Ho proiettato alcuni libri statistici, ma non ho trovato il passaggio. Probabilmente
stai

vedi aggiornamenti per rispondere
Glen_b -Reinstate Monica

Sei grande! Certo, lo sapevi, ma a volte vale comunque la pena dichiararlo. Molte grazie!
BurninLeo,

1
(+1) Risposta davvero bella.
chl

2

Un'interessante confessione che avevo imparato nella mia prima lezione di biostatistica da un professore è che il livello di significatività di 0,05 era più che mai arrivato attraverso un consenso piuttosto che una verità d'oro. Da allora, ho visto la letteratura flirtare con il livello di significatività di 0,05, come "avvicinarsi" per essere ancora una scoperta sorprendente dello studio e ho sentito argomentazioni sul fatto che il livello di significatività di 0,05 potrebbe non applicarsi a tutti i campi di ricerca. Detto questo, ho trovato le stime puntuali e gli intervalli di confidenza più informativi dei livelli di significatività. Ecco un articolo interessante sull'argomento (per me comunque).


Grazie per il riferimento @ user2300643. E grazie per aver evitato la barriera finanziaria per l'accesso!
doug.numbers,

C'è un'interessante discussione sulle origini dei livelli di significatività del 5% ecc . Qui .
Glen_b

0

Il valore di p è di solito impostato per consenso, come detto in precedenza (o piuttosto pigrizia). Per poter davvero dire che qualcosa è significativo, dobbiamo trovare il valore di p che corrisponde alla dimensione dell'effetto, alla dimensione del campione e a quanto vuoi che sia rigoroso per i tuoi dati. Questo si chiama analisi di potenza (è un sottocampo all'interno delle statistiche). Molte persone o non ne sono consapevoli o semplicemente non lo usano perché non è semplice. Questo non vuol dire che vada bene così. Dobbiamo sempre fare questo tipo di studio per trarre inferenze veramente significative.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.