Data la potenza dei computer al giorno d'oggi, c'è mai un motivo per fare un test chi-quadrato piuttosto che il test esatto di Fisher?


86

Dato che al giorno d'oggi il software può eseguire il calcolo esatto del test di Fisher così facilmente , esiste qualche circostanza in cui, teoricamente o praticamente, il test chi-quadrato è effettivamente preferibile al test esatto di Fisher?

I vantaggi del test esatto di Fisher includono:

  • ridimensionamento in tabelle di contingenza maggiori di 2x2 (ovvero qualsiasi tabella r x c )
  • fornisce un valore p esatto
  • non è necessario disporre di un numero minimo di celle previsto per essere valido

10
Perché sono buoni vecchi classici. Presto diventerà un'annata squisita. Da allora in poi, quando le persone si ribellano ai computer, vivrà la sua seconda giovinezza.
ttnphns,

7
Hai mai provato a calcolare l'esatta statistica dei test di Fisher su un grande tavolo? (Ci vuole troppo tempo ...)
whuber

22
Oltre ai buoni commenti e risposte che hai già ottenuto, penso che la domanda migliore sia "Data la potenza dei computer, perché non eseguire sempre test di simulazione / permutazione?".
Peter Flom - Ripristina Monica

1
@whuber Ho fatto un'implementazione (proprietaria) senza (un gran numero di) tabelle, in C ++. Esegue migliaia di valori P per numeri fino a 8 cifre in secondi.
Michel de Ruiter,

1
@Michel Intendevo il numero totale di celle nella tabella. Il calcolo è facile per 2 x 2 tabelle, ma man mano che le tabelle diventano grandi, i calcoli diventano onerosi.
whuber

Risposte:


61

Puoi invertire la domanda. Poiché il normale test Pearson è quasi sempre più accurato del test esatto di Fisher ed è molto più rapido da calcolare, perché qualcuno usa il test di Fisher?χ2

Si noti che è un errore che le frequenze cellulari attese debbano superare 5 affinché di Pearson produca valori accurati. Il test è accurato fintanto che le frequenze delle cellule previste superano 1,0 se alla statistica del test viene applicata una correzione molto semplice . P N - 1χ2PN1N


Da R-help, 2009 :

Campbell, I. Chi-quadrato e Fisher-Irwin test di due per due tabelle con piccoli esempi di raccomandazioni. Statistica in medicina 2007; 26 : 3661-3675. ( astratto )

  • ... l'ultima edizione del libro di Armitage raccomanda di non utilizzare mai gli aggiustamenti di continuità per i test chi-quadrato della tabella di contingenza;

  • E. Modifica Pearson del test chi-quadro di Pearson, diverso dall'originale per un fattore di (N-1) / N;

  • Cochran ha osservato che il numero 5 in "frequenza attesa inferiore a 5" era arbitrario;

  • i risultati degli studi pubblicati possono essere riassunti come segue , per studi comparativi:

    1. Il test chi-quadrato di Yate ha tassi di errore di tipo I inferiori al nominale, spesso inferiori alla metà del nominale;

    2. Il test Fisher-Irwin ha tassi di errore di tipo I inferiori a quelli nominali;

    3. La versione di K Pearson del test del chi-quadrato ha tassi di errore di tipo I più vicini al nominale del test del chi-quadrato di Yate e del test Fisher-Irwin, ma in alcune situazioni fornisce errori di tipo I sensibilmente più grandi del valore nominale;

    4. Il test chi-quadrato "N-1" si comporta come la versione "N" di K. Pearson, ma la tendenza a valori superiori a quelli nominali è ridotta;

    5. Il test di Fisher-Irwin su due lati usando la regola di Irwin è meno conservativo rispetto al metodo che raddoppia la probabilità su un lato;

    6. Il test Fisher-Irwin a metà P raddoppiando la probabilità unilaterale ha prestazioni migliori rispetto alle versioni standard del test Fisher-Irwin, e il metodo a metà P secondo la regola di Irwin si comporta ancora meglio avendo errori di tipo I reali più vicini ai livelli nominali. ";

  • forte supporto per il test "N-1" purché le frequenze previste superino 1;

  • difetto del test di Fisher basato sulla premessa di Fisher secondo cui i totali marginali non forniscono informazioni utili;

  • dimostrazione delle loro informazioni utili in campioni di dimensioni molto piccole;

  • L'adeguamento della continuità di Yate di N / 2 è una correzione eccessiva ed è inappropriato;

  • esistono argomenti contrari all'uso dei test di randomizzazione in studi randomizzati;

  • calcoli dei casi peggiori;

  • raccomandazione generale : utilizzare il test chi-quadro "N-1" quando tutte le frequenze previste sono almeno 1, altrimenti utilizzare il test Fisher-Irwin usando la regola di Irwin per i test su due lati, prendendo le tabelle da una coda come probabile, o meno, come quello osservato; vedi lettera all'editore di Antonio Andres e risposta dell'autore in 27: 1791-1796; Del 2008.


Crans GG, Shuster JJ. Quanto è conservativo il test esatto di Fisher? Una valutazione quantitativa dello studio binomiale comparativo a due campioni. Statistica in medicina 2008; 27 : 3598-3611. ( astratto )

  • ... primo articolo per quantificare veramente la conservatività del test di Fisher;

  • "la dimensione del test di FET era inferiore a 0,035 per quasi tutte le dimensioni del campione prima del 50 e non si avvicinava a 0,05 anche per dimensioni del campione superiori a 100.";

  • prudenza dei metodi "esatti";

  • vedi Stat in Med 28 : 173-179, 2009 per una critica senza risposta


Lydersen S, Fagerland MW, Laake P. Prove consigliate per l'associazione in tabelle. Statistica in medicina 2009; 28 : 1159-1175. ( astratto )2×2

  • ... Il test esatto di Fisher non dovrebbe mai essere usato a meno che non venga applicata la correzione di mezzo ;P

  • valore dei test incondizionati;

  • vedi lettera all'editore 30: 890-891; 2011


1
Puoi suggerire come applicare la correzione (N-1) / N? Esistono calcolatori online che incorporano questa correzione? Esiste un modo semplice per regolare manualmente i risultati del test chi-quadrato per effettuare questa correzione da soli?
DW,

Uno dei riferimenti che ho elencato sopra è la soluzione migliore.
Frank Harrell,

1
Perché stai dicendo che "è quasi sempre più accurato del test esatto di Fisher" ? Direi il contrario, perché non è un test "esatto". χ 2χ2 χ2
Stéphane Laurent,

2
Etichettare qualcosa come "esatto" non lo rende così. Vedi la meravigliosa spiegazione sotto di @suncoolsu che devi aver perso (hai perso anche tutte le spiegazioni sopra). Il test Pearson è persino più accurato di quanto Pearson pensasse. Vedi ad esempio citeulike.org/user/harrelfe/article/13265687 e citeulike.org/user/harrelfe/article/13263676 . Il test "esatto" di Fisher è esatto solo nel senso che l'errore di tipo I reale non è maggiore di quanto affermato. Ma risulta essere più piccolo di quanto affermato, quindi l'errore di tipo II è più alto, il che significa meno potenza.
Frank Harrell,

Conosco il significato dell'esattezza. Il punto preciso che non mi piace con i test inesatti è la possibilità che l'errore di tipo I sia superiore al livello nominale. Ma hai ragione, ho letto male la tua risposta e l'altra (entrambe sono fantastiche)
Stéphane Laurent,

47

Questa è un'ottima domanda

Il test esatto di Fisher è uno dei grandi esempi dell'uso intelligente di Fisher del design sperimentale , insieme al condizionamento dei dati (fondamentalmente su tabelle con la riga osservata e i totali marginali) e la sua ingegnosità nel trovare distribuzioni di probabilità (anche se questo non è il miglior esempio , per un esempio migliore vedi qui ). L'uso di computer per calcolare valori p "esatti" ha sicuramente aiutato a ottenere risposte accurate.

Tuttavia, è difficile giustificare in pratica le ipotesi dell'esatto test di Fisher. Poiché il cosiddetto "esatto" deriva dal fatto che nel "esperimento di degustazione di tè" o nel caso delle tabelle di contingenza 2x2, il totale della riga e il totale della colonna, ovvero i totali marginali sono fissati in base alla progettazione. Questa ipotesi è raramente giustificata nella pratica. Per bei riferimenti vedere qui .

Il nome "esatto" porta a credere che i valori di p forniti da questo test siano esatti, il che di nuovo nella maggior parte dei casi non è purtroppo corretto a causa di questi motivi

  1. Se i marginali non sono fissati in base alla progettazione (cosa che accade quasi sempre nella pratica), i valori p saranno conservativi.
  2. Poiché il test utilizza una distribuzione di probabilità discreta (in particolare, distribuzione Iperometrica), per alcuni valori limite è impossibile calcolare le "probabilità nulle esatte", ovvero il valore p.

Nella maggior parte dei casi pratici, l'uso di un test del rapporto di verosimiglianza o del test Chi-quadrato non dovrebbe dare risposte molto diverse (valore p) dal test esatto di Fisher. Sì, quando i margini sono fissi, l'esatto test di Fisher è una scelta migliore, ma ciò accadrà raramente. Pertanto, per i controlli di coerenza si consiglia sempre di utilizzare il test Chi-quadrato del test del rapporto di verosimiglianza.

Idee simili si applicano quando il test esatto di Fisher è generalizzato a qualsiasi tabella, il che equivale sostanzialmente al calcolo delle probabilità ipergeometriche multivariate. Pertanto si deve sempre provare a calcolare i valori p basati su distribuzione Chi-quadrato e rapporto di verosimiglianza, oltre a valori p "esatti".

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.