Quando utilizzare il framework Fisher e Neyman-Pearson?


73

Recentemente ho letto molto sulle differenze tra il metodo di verifica delle ipotesi di Fisher e la scuola di pensiero Neyman-Pearson.

La mia domanda è, ignorando per un momento le obiezioni filosofiche; quando dovremmo usare l'approccio di Fisher alla modellistica statistica e quando dovremmo usare il metodo dei livelli di significatività di Neyman-Pearson e così via? Esiste un modo pratico per decidere quale punto di vista approvare in un dato problema pratico?


Dove l'hai letto? Per favore, cita le tue fonti.
xmjx,

Risposte:


83

Vorrei iniziare definendo i termini della discussione come li vedo. Un valore p è la probabilità di ottenere una statistica campione (ad esempio, una media campionaria) fino a , o più lontano da un valore di riferimento rispetto alla statistica campione, se il valore di riferimento fosse il parametro di popolazione reale. Ad esempio, un valore p risponde alla domanda: qual è la probabilità di ottenere un QI medio di campionamento maggiore dipunti da 100, se 100 è davvero la media della popolazione da cui è stato estratto il campione. Ora il problema è, come dovrebbe essere impiegato quel numero nel fare un'inferenza statistica? |x¯100|

Fisher pensava che il valore p potesse essere interpretato come una misura continua di prove contro l'ipotesi nulla . Non esiste un valore fisso particolare al quale i risultati diventano "significativi". Il modo in cui di solito provo a comunicare questo alle persone è sottolineare che, a tutti gli effetti, p = .049 e p = .051 costituiscono una quantità identica di prove contro l'ipotesi nulla (cfr. @ Risposta di Henrik qui ) .

D'altra parte, Neyman e Pearson pensavano che si potesse usare il valore p come parte di un processo decisionale formalizzato . Alla fine della tua indagine, devi rifiutare l'ipotesi nulla o non respingere l'ipotesi nulla. Inoltre, l'ipotesi nulla potrebbe essere vera o non vera. Pertanto, ci sono quattro possibilità teoriche (anche se in una determinata situazione, ce ne sono solo due): potresti prendere una decisione corretta (non puoi rifiutare un'ipotesi vera - o rifiutare un'ipotesi falsa - nulla), oppure potresti fare un tipo Errore I o di tipo II (respingendo un vero null, o non riuscendo a respingere un'ipotesi nulla falsa, rispettivamente). (Si noti che il valore p non è la stessa cosa del tasso di errore di tipo I, che discuterò qui.) Il valore p consente di decidere se formalizzare o meno l'ipotesi nulla di respingere. All'interno del framework Neyman-Pearson, il processo funzionerebbe in questo modo: esiste un'ipotesi nulla secondo cui le persone crederanno di default in assenza di prove sufficienti al contrario, e un'ipotesi alternativa che ritieni possa essere vera invece. Ci sono alcuni tassi di errore a lungo termine con cui sarai disposto a convivere (nota che non c'è motivo per cui questi debbano essere del 5% e 20%). Date queste cose, progettate il vostro studio per differenziare tra queste due ipotesi mantenendo, al massimo, tali tassi di errore, conducendo un'analisi di potenza e conducendo il vostro studio di conseguenza. (In genere, ciò significa disporre di dati sufficienti.) Una volta completato lo studio, si confronta il valore p conαe rifiuta l'ipotesi nulla se ; in caso contrario, non si rifiuta l'ipotesi nulla. In entrambi i casi, il tuo studio è completo e hai preso la tua decisione. p<α

Gli approcci Fisherian e Neyman-Pearson non sono gli stessi . La tesi centrale del framework Neyman-Pearson è che alla fine del tuo studio, devi prendere una decisione e andartene. Presumibilmente, un ricercatore una volta si è avvicinato a Fisher con risultati "non significativi", chiedendogli cosa avrebbe dovuto fare, e Fisher ha detto, "vai a prendere più dati".


Personalmente trovo molto interessante la logica elegante dell'approccio Neyman-Pearson. Ma non penso sia sempre appropriato. A mio avviso, devono essere soddisfatte almeno due condizioni prima di considerare il quadro Neyman-Pearson:

  1. Dovrebbero esserci alcune ipotesi alternative specifiche ( grandezza dell'effetto ) che ti interessano per qualche motivo. (Non mi interessa quale sia la dimensione dell'effetto, qual è la tua ragione, che sia fondata o coerente, ecc., Solo che ne hai una.)
  2. Dovrebbero esserci dei motivi per sospettare che l'effetto sarà "significativo", se l'ipotesi alternativa è vera. (In pratica, questo in genere significa che hai condotto un'analisi di potenza e hai abbastanza dati.)

Quando queste condizioni non sono soddisfatte, il valore p può ancora essere interpretato in linea con le idee di Fisher. Inoltre, mi sembra probabile che la maggior parte delle volte queste condizioni non siano soddisfatte. Ecco alcuni semplici esempi che vengono in mente, in cui vengono eseguiti i test, ma le condizioni di cui sopra non sono soddisfatte:

  • l'ANOVA omnibus per un modello di regressione multipla (è possibile capire come tutti i parametri di pendenza non zero ipotizzati si uniscano per creare un parametro di non centralità per la distribuzione F , ma non è lontanamente intuitivo e dubito che qualcuno lo fa)
  • il valore di un test di Shapiro-Wilk sulla normalità dei tuoi residui in un'analisi di regressione (di quale grandezza di ti importa e perché? quanta potenza hai di rifiutare il nulla quando quella grandezza è corretta?) W
  • il valore di un test di omogeneità della varianza (ad esempio, test di Levene ; stessi commenti come sopra)
  • qualsiasi altro test per verificare i presupposti, ecc.
  • T-test di covariate diverse dalla variabile esplicativa di interesse primario nello studio
  • ricerca iniziale / esplorativa (ad es. studi pilota)

Anche se questo è un argomento più vecchio, la risposta è molto apprezzata. +1
Stijn

+1 Ottima risposta! Sono impressionato dalla tua capacità di spiegare questi concetti in modo così conciso.
COOLSerdash,

1
Questa è una risposta davvero meravigliosa, @gung
Patrick S. Forscher,

5
AFAIK Neyman-Pearson non ha utilizzato i valori p dei pescatori e quindi un criterio "p <alfa". Quello che chiamate "Neyman-Pearson" in realtà è "Test di significatività di ipotesi nulla" (un ibrido di Fisher e NP), non pura teoria decisionale di Neyman-Pearson.
Frank,

"se il valore di riferimento fosse il vero parametro di popolazione." Per essere precisi, è "se la distribuzione di probabilità è quella specificata nell'ipotesi nulla". L'ipotesi nulla non si limita a specificare statistiche riassuntive come una media, ma specifica un'intera distribuzione di probabilità. Spesso la famiglia di distribuzione viene considerata implicita (ad es. Distribuzione normale), a quel punto specificando i parametri si specifica la distribuzione.
Accumulazione il

18

La praticità è negli occhi di chi guarda, ma;

  • I test di significatività di Fisher possono essere interpretati come un modo per decidere se i dati suggeriscono o meno un `segnale 'interessante. O rifiutiamo l'ipotesi nulla (che potrebbe essere un errore di tipo I) o non diamo nulla. Ad esempio, in molte moderne applicazioni "omiche", questa interpretazione si adatta; non vogliamo fare troppi errori di tipo I, vogliamo estrarre i segnali più interessanti, anche se potremmo perdere alcuni.

  • L'ipotesi di Neyman-Pearson ha senso quando ci sono due alternative disgiunte (ad esempio il bosone di Higgs esiste o non esiste) tra le quali decidiamo. Oltre al rischio di un errore di tipo I, qui possiamo anche fare un errore di tipo II - quando c'è un segnale reale ma diciamo che non è lì, prendendo una decisione "nulla". L'argomento di NP era che, senza fare troppi tassi di errore di tipo I, vogliamo ridurre al minimo il rischio di errori di tipo II.

Spesso, nessuno dei due sistemi sembrerà perfetto, ad esempio potresti voler solo una stima puntuale e la corrispondente misura dell'incertezza. Inoltre, potrebbe non importare quale versione si utilizza, poiché si riporta il valore p e si lascia l'interpretazione del test al lettore. Ma per scegliere tra gli approcci di cui sopra, identifica se (o meno) gli errori di tipo II sono rilevanti per la tua applicazione.


5

Il punto è che non puoi ignorare le differenze filosofiche. Una procedura matematica in statistica non è solo come qualcosa che applichi senza alcune ipotesi, ipotesi, teoria ... filosofia sottostanti.

Detto questo, se insisti a rimanere fedele alle filosofie frequentiste, potrebbero esserci alcuni tipi molto specifici di problemi in cui Neyman-Pearson ha davvero bisogno di essere preso in considerazione. Tutti rientrerebbero nella classe di test ripetuti come controllo di qualità o fMRI. Impostare in anticipo un alfa specifico e considerare l'intero tipo I, il tipo II e il quadro di potenza diventa più importante in tale contesto.


Non insisto per attenermi alle statistiche dei frequentisti, ma mi chiedevo solo se ci sono situazioni in cui l'adozione di un punto di vista di Fisher o Neyman-Pearson potrebbe essere naturale. So che esiste una distinzione filosofica, ma forse c'è anche un lato pratico da considerare?
Stijn,

3
OK, praticamente più o meno quello che ho detto ... Neyman-Pearson era davvero preoccupato per le situazioni in cui si fanno molti e molti test senza basi teoriche reali per ognuno. Il punto di vista di Fisher non risolve davvero questo problema.
Giovanni,

1

La mia comprensione è: il valore p è di dirci cosa credere (verificare una teoria con dati sufficienti) mentre l'approccio di Neyman-Pearson è di dirci cosa fare (prendere le migliori decisioni possibili anche con dati limitati). Quindi mi sembra che il (piccolo) valore p sia più rigoroso mentre l'approccio Neyman-Pearson è più pragmatico; Questo è probabilmente il motivo per cui il valore p viene utilizzato di più per rispondere alle domande scientifiche, mentre Neyman e Pearson viene utilizzato di più per prendere decisioni statistiche / pratiche.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.