Quando e come evitare l'uso inappropriato del test esatto di Fisher

Qualcuno potrebbe spiegare perché Richard McElreath afferma che l'esatto test di Fisher è usato raramente in modo appropriato nel suo eccellente libro introduttivo bayesiano ( Ripensamento statistico )?

Per riferimento, il contesto è di seguito:

Perché i test non sono sufficienti per la ricerca innovativa? Le procedure classiche delle statistiche introduttive tendono ad essere poco flessibili e fragili. Per inflessibilità, intendo dire che hanno modi molto limitati di adattarsi a contesti di ricerca unici. Per fragile, intendo dire che falliscono in modi imprevedibili quando applicati a nuovi contesti. Ciò è importante, perché ai confini della maggior parte delle scienze, non è quasi mai chiaro quale sia la procedura appropriata. Nessuno dei golem tradizionali è stato valutato in nuovi contesti di ricerca, quindi può essere difficile sceglierne uno e quindi capire come si comporta.Un buon esempio è l'esatto test di Fisher, che si applica (esattamente) a un contesto empirico estremamente stretto, ma viene regolarmente utilizzato ogni volta che il numero di cellule è piccolo. Ho letto personalmente centinaia di usi dell'esatto test di Fisher su riviste scientifiche, ma a parte l'uso originale di Fisher, non l'ho mai visto usato in modo appropriato. Anche una procedura come la normale regressione lineare, che è abbastanza flessibile in molti modi, essendo in grado di codificare una grande varietà di ipotesi interessanti, a volte è fragile. Ad esempio, se si verifica un errore di misura sostanziale sulle variabili di predizione, la procedura può fallire in modo spettacolare. Ma soprattutto, è quasi sempre possibile fare meglio della normale regressione lineare, in gran parte a causa di un fenomeno noto come overfitting.

hypothesis-testing bayesian fishers-exact

— hanice
fonte

Vedi stats.stackexchange.com/q/136584/17230 . Quando il test esatto di Fisher è appropriato è discutibile - c'è sicuramente stato un dibattito da quando Fisher ne è uscito.

— Scortchi - Ripristina Monica

Una grande e recente panoramica di questo argomento e delle controversie è fornita da Choi et al. (2015): Chiarire le basi dell'inferenza statistica con tabelle 2x2 .

— COOLSerdash,

@COOLSerdash: è una scoperta meravigliosa, e contiene la risposta che mi piacerebbe aver scritto, liberata dai vincoli di tempo e potere del cervello; e molto altro ancora. Anche tutti o la maggior parte dei riferimenti che vorrei dare; Vedrò se ne ho altri e li aggiungerò alla mia risposta.

— Scortchi - Ripristina Monica

È difficile leggere questa citazione e non supporre che l'autore consideri un semplice errore usare il test esatto di Fisher quando i totali marginali di una tabella di contingenza non sono fissati dal design. "L'utilizzo originale di Fisher" del test deve riferirsi alla famosa signora che assaggia il tè che "le è stato detto in anticipo su cosa consisterà il test, vale a dire che le verrà chiesto di assaggiare otto tazze, che devono essere quattro di ogni tipo, [...] "(Fisher (1935), The Design of Experiments ); ^† e quindi "un contesto empirico estremamente stretto" analizza come "uno schema di campionamento applicabile a pochi studi effettuati nella pratica".

Ma non è un errore: condizionare la statistica sufficiente per la distribuzione dei dati sotto l'ipotesi nulla è una tecnica standard per eliminare i parametri di disturbo e elaborare test delle dimensioni corrette (che è la base dei test di permutazione). I totali marginali contengono pochissime informazioni che è possibile utilizzare per stimare il parametro di interesse, il rapporto di probabilità; e piuttosto molto sulla precisione con cui è possibile stimarlo: l'argomento è che lo spazio campione ottenuto dal condizionamento su entrambi è molto più rilevante per l'inferenza rispetto a quello ottenuto dal condizionamento su uno solo o solo sul conteggio totale. È uno spazio di campionamento orribilmente grossolano, che si traduce in una deplorevole perdita di potere. In che modo la pertinenza dello spazio campione deve essere bilanciata dalla perdita di informazioni? Di quanto è accettabile l'ingrossamento dello spazio del campione prima di preferire un test asintoticamente valido o un test incondizionato? Queste sono domande irritate e l'analisi delle tabelle di contingenza due per due è stata controversa per mezzo secolo o più.

Dato che questo proviene da un testo bayesiano, penso che l'autore abbia perso un'occasione per prendere in giro i dilemmi che un impegno nell'uso di metodi frequentisti può portare a, come Jaynes fa in Probability Theory: The Logic of Science

† In un articolo pubblicato nello stesso anno del suo libro, ha usato un esempio in cui, sebbene lo schema di campionamento non sia esplicitamente indicato, al massimo un margine avrebbe potuto essere fissato in anticipo, e molto probabilmente era stato fissato solo il conteggio totale. I gemelli omosessuali di criminali condannati sono classificati come monozigoti vs dizigotici e come condannati per crimini stessi e non condannati in una tabella due per due (Fisher (1935), "La logica dell'inferenza induttiva", JRSS, 98 , 1, pp 39–82). [Modifica: i dati provengono da Lange (1929), Verbrechen als Schicksal: Studien am kriminellen Zwillingen . Wetzell (2000), Inventing the Criminal: A History of German Criminology, 1880-1945 , p 162] descrive la procedura di raccolta dei dati di Lange; E'

— Scortchi - Ripristina Monica
fonte