Esiste una certa scuola di pensiero secondo la quale l'approccio più diffuso ai test statistici è un "ibrido" tra due approcci: quello di Fisher e quello di Neyman-Pearson; questi due approcci, afferma la rivendicazione, sono "incompatibili" e quindi il "ibrido" risultante è un "miscuglio incoerente". Fornirò una bibliografia e alcune citazioni di seguito, ma per ora è sufficiente dire che sull'articolo di Wikipedia sul test delle ipotesi statistiche è scritto molto a riguardo . Qui su CV, questo punto è stato ripetutamente sottolineato da @Michael Lew (vedi qui e qui ).
La mia domanda è: perché gli approcci F e NP sono dichiarati incompatibili e perché l'ibrido è dichiarato incoerente? Nota che ho letto almeno sei articoli anti-ibridi (vedi sotto), ma non riesco ancora a capire il problema o l'argomento. Si noti inoltre che non sto suggerendo di discutere se F o NP siano un approccio migliore; né mi sto offrendo di discutere delle strutture frequentista e bayesiana. Invece, la domanda è: accettando che sia F che NP sono approcci validi e significativi, cosa c'è di male nel loro ibrido?
Ecco come capisco la situazione. L'approccio di Fisher è di calcolare il valore e prenderlo come prova contro l'ipotesi nulla. Più piccola è la p , più convincenti sono le prove. Il ricercatore dovrebbe combinare queste prove con le sue conoscenze di base, decidere se è abbastanza convincente e procedere di conseguenza. (Si noti che le opinioni di Fisher sono cambiate nel corso degli anni, ma questo è ciò a cui sembra che alla fine si sia convertito.) Al contrario, l'approccio di Neyman-Pearson è scegliere α in anticipo e quindi verificare se p ≤ α; in tal caso, chiamalo significativo e respingi l'ipotesi nulla (qui ometto gran parte della storia di NP che non ha rilevanza per la discussione attuale). Vedi anche un'eccellente risposta di @gung in Quando utilizzare il framework Fisher e Neyman-Pearson?
L'approccio ibrido consiste nel calcolare il valore , riportarlo (presupponendo implicitamente che minore è il migliore) e anche chiamare i risultati significativi se p ≤ α (solitamente α = 0,05 ) e non significativi in caso contrario. Questo dovrebbe essere incoerente. Come può essere invalido fare due cose valide contemporaneamente, mi batte.
Particolarmente incoerenti anti-ibridologi visualizzare la pratica diffusa di segnalazione -Valori come p < 0.05 , p < 0,01 , o p < 0,001 (o anche p « 0,0001 ), dove viene scelto sempre la disuguaglianza forte. L'argomento sembra essere che (a) la forza dell'evidenza non può essere valutata correttamente in quanto non è riportata la p esatta , e (b) le persone tendono a interpretare il numero di destra nella disuguaglianza come α e vederlo come tasso di errore di tipo I e questo è sbagliato. Non riesco a vedere un grosso problema qui. Innanzitutto, riportando esattamente pè certamente una pratica migliore, ma a nessuno importa se è ad es. 0,02 o 0,03 , quindi arrotondarlo su una scala logaritmica non è poi così male (e andare sotto ∼ 0,0001 non ha comunque senso, vedi Come devono essere riportati piccoli valori p ? ). In secondo luogo, se il consenso è di chiamare tutto al di sotto di 0,05 significativo, allora il tasso di errore sarà α = 0,05 e p ≠ α , come spiega @gung in Interpretazione del valore p nel test di ipotesi. Anche se questo è potenzialmente un problema confuso, non mi sembra più confuso rispetto ad altri problemi nei test statistici (al di fuori dell'ibrido). Inoltre, ogni lettore può avere in mente il suo preferito quando legge un documento ibrido e di conseguenza il suo tasso di errore. Quindi qual è il grosso problema?
Uno dei motivi per cui voglio porre questa domanda è perché fa letteralmente male vedere quanto dell'articolo di wikipedia sul test delle ipotesi statistiche è dedicato all'ibrido di lambasting. Seguendo Halpin & Stam, afferma che la colpa è di un certo Lindquist (c'è anche una grande scansione del suo libro di testo con "errori" evidenziati in giallo), e ovviamente l'articolo wiki sullo stesso Lindquist inizia con la stessa accusa. Ma poi, forse mi manca qualcosa.
Riferimenti
Gigerenzer, 1993, Il super-io, l'ego e l'id nel ragionamento statistico - introdussero il termine "ibrido" e lo chiamarono "miscuglio incoerente"
- Vedi anche le mostre più recenti di Gigerenzer et al .: es. Mindless statistics (2004) e The Null Ritual. Cosa hai sempre voluto sapere sui test di significatività ma hai avuto paura di chiedere (2004).
Cohen, 1994, The Earth Is Round ( ) - un articolo molto popolare con quasi 3k citazioni, per lo più su questioni diverse ma citando favorevolmente Gigerenzer
Goodman, 1999, Verso statistiche mediche basate sull'evidenza. 1: L'errore di valore P
Hubbard & Bayarri, 2003, Confusione su misure di prove ( ) contro errori ( α ) nei test statistici classici - uno dei documenti più eloquenti che sostengono "ibrido"
Halpin & Stam, 2006, inferenza induttiva o comportamento induttivo: approcci Fisher e Neyman-Pearson ai test statistici nella ricerca psicologica (1940-1960) [gratuito dopo la registrazione] - incolpa il libro di testo di Lindquist del 1940 per l'introduzione dell'approccio "ibrido"
@Michael Lew, 2006, Cattiva pratica statistica in farmacologia (e altre discipline biomediche di base): probabilmente non conosci P - una bella recensione e panoramica
Citazioni
Gigerenzer: Ciò che è diventato istituzionalizzato come statistica inferenziale in psicologia non è la statistica dei pescatori. È un miscuglio incoerente di alcune idee di Fisher da un lato, e alcune delle idee di Neyman e ES Pearson dall'altro. Mi riferisco a questa miscela come alla "logica ibrida" dell'inferenza statistica.
Goodman: l'approccio del test di ipotesi [Neyman-Pearson] ha offerto agli scienziati un affare faustiano - un modo apparentemente automatico per limitare il numero di conclusioni errate nel lungo periodo, ma solo abbandonando la capacità di misurare le prove [a la Fisher] e valutare verità da un singolo esperimento.
Hubbard & Bayarri: i test statistici classici sono un ibrido anonimo degli approcci concorrenti e spesso contraddittori [...]. In particolare, si riscontra un diffuso mancato apprezzamento dell'incompatibilità del valore probatorio di Fisher con il tasso di errore di tipo I, α , dell'ortodossia statistica di Neyman-Pearson. [...] Come primo esempio dello smarrimento derivante da [questa] miscelazione [...], considera il fatto ampiamente non riconosciuto che il valore p del primo è incompatibilecon il test di ipotesi Neyman-Pearson in cui è stato incorporato. [...] Ad esempio, Gibbons e Pratt [...] hanno erroneamente dichiarato: "Segnalare un valore P, esatto o entro un intervallo, in effetti consente a ciascun individuo di scegliere il proprio livello di significatività come massima probabilità tollerabile di un errore di tipo I. "
Halpin & Stam: il testo di Lindquist del 1940 era una fonte originale dell'ibridazione degli approcci di Fisher e Neyman-Pearson. [...] piuttosto che aderire a una particolare interpretazione dei test statistici, gli psicologi sono rimasti ambivalenti e, in effetti, inconsapevoli delle difficoltà concettuali implicate nella controversia di Fisher e Neyman-Pearson.
Lew: Quello che abbiamo è un approccio ibrido che non controlla né i tassi di errore né consente la valutazione della forza delle prove.