Vorrei iniziare definendo i termini della discussione come li vedo. Un valore p è la probabilità di ottenere una statistica campione (ad esempio, una media campionaria) fino a , o più lontano da un valore di riferimento rispetto alla statistica campione, se il valore di riferimento fosse il parametro di popolazione reale. Ad esempio, un valore p risponde alla domanda: qual è la probabilità di ottenere un QI medio di campionamento maggiore dipunti da 100, se 100 è davvero la media della popolazione da cui è stato estratto il campione. Ora il problema è, come dovrebbe essere impiegato quel numero nel fare un'inferenza statistica? |x¯−100|
Fisher pensava che il valore p potesse essere interpretato come una misura continua di prove contro l'ipotesi nulla . Non esiste un valore fisso particolare al quale i risultati diventano "significativi". Il modo in cui di solito provo a comunicare questo alle persone è sottolineare che, a tutti gli effetti, p = .049 e p = .051 costituiscono una quantità identica di prove contro l'ipotesi nulla (cfr. @ Risposta di Henrik qui ) .
D'altra parte, Neyman e Pearson pensavano che si potesse usare il valore p come parte di un processo decisionale formalizzato . Alla fine della tua indagine, devi rifiutare l'ipotesi nulla o non respingere l'ipotesi nulla. Inoltre, l'ipotesi nulla potrebbe essere vera o non vera. Pertanto, ci sono quattro possibilità teoriche (anche se in una determinata situazione, ce ne sono solo due): potresti prendere una decisione corretta (non puoi rifiutare un'ipotesi vera - o rifiutare un'ipotesi falsa - nulla), oppure potresti fare un tipo Errore I o di tipo II (respingendo un vero null, o non riuscendo a respingere un'ipotesi nulla falsa, rispettivamente). (Si noti che il valore p non è la stessa cosa del tasso di errore di tipo I, che discuterò qui.) Il valore p consente di decidere se formalizzare o meno l'ipotesi nulla di respingere. All'interno del framework Neyman-Pearson, il processo funzionerebbe in questo modo: esiste un'ipotesi nulla secondo cui le persone crederanno di default in assenza di prove sufficienti al contrario, e un'ipotesi alternativa che ritieni possa essere vera invece. Ci sono alcuni tassi di errore a lungo termine con cui sarai disposto a convivere (nota che non c'è motivo per cui questi debbano essere del 5% e 20%). Date queste cose, progettate il vostro studio per differenziare tra queste due ipotesi mantenendo, al massimo, tali tassi di errore, conducendo un'analisi di potenza e conducendo il vostro studio di conseguenza. (In genere, ciò significa disporre di dati sufficienti.) Una volta completato lo studio, si confronta il valore p conαe rifiuta l'ipotesi nulla se ; in caso contrario, non si rifiuta l'ipotesi nulla. In entrambi i casi, il tuo studio è completo e hai preso la tua decisione. p<α
Gli approcci Fisherian e Neyman-Pearson non sono gli stessi . La tesi centrale del framework Neyman-Pearson è che alla fine del tuo studio, devi prendere una decisione e andartene. Presumibilmente, un ricercatore una volta si è avvicinato a Fisher con risultati "non significativi", chiedendogli cosa avrebbe dovuto fare, e Fisher ha detto, "vai a prendere più dati".
Personalmente trovo molto interessante la logica elegante dell'approccio Neyman-Pearson. Ma non penso sia sempre appropriato. A mio avviso, devono essere soddisfatte almeno due condizioni prima di considerare il quadro Neyman-Pearson:
- Dovrebbero esserci alcune ipotesi alternative specifiche ( grandezza dell'effetto ) che ti interessano per qualche motivo. (Non mi interessa quale sia la dimensione dell'effetto, qual è la tua ragione, che sia fondata o coerente, ecc., Solo che ne hai una.)
- Dovrebbero esserci dei motivi per sospettare che l'effetto sarà "significativo", se l'ipotesi alternativa è vera. (In pratica, questo in genere significa che hai condotto un'analisi di potenza e hai abbastanza dati.)
Quando queste condizioni non sono soddisfatte, il valore p può ancora essere interpretato in linea con le idee di Fisher. Inoltre, mi sembra probabile che la maggior parte delle volte queste condizioni non siano soddisfatte. Ecco alcuni semplici esempi che vengono in mente, in cui vengono eseguiti i test, ma le condizioni di cui sopra non sono soddisfatte:
- l'ANOVA omnibus per un modello di regressione multipla (è possibile capire come tutti i parametri di pendenza non zero ipotizzati si uniscano per creare un parametro di non centralità per la distribuzione F , ma non è lontanamente intuitivo e dubito che qualcuno lo fa)
- il valore di un test di Shapiro-Wilk sulla normalità dei tuoi residui in un'analisi di regressione (di quale grandezza di ti importa e perché? quanta potenza hai di rifiutare il nulla quando quella grandezza è corretta?) W
- il valore di un test di omogeneità della varianza (ad esempio, test di Levene ; stessi commenti come sopra)
- qualsiasi altro test per verificare i presupposti, ecc.
- T-test di covariate diverse dalla variabile esplicativa di interesse primario nello studio
- ricerca iniziale / esplorativa (ad es. studi pilota)