Questa è un'ottima domanda
Il test esatto di Fisher è uno dei grandi esempi dell'uso intelligente di Fisher del design sperimentale , insieme al condizionamento dei dati (fondamentalmente su tabelle con la riga osservata e i totali marginali) e la sua ingegnosità nel trovare distribuzioni di probabilità (anche se questo non è il miglior esempio , per un esempio migliore vedi qui ). L'uso di computer per calcolare valori p "esatti" ha sicuramente aiutato a ottenere risposte accurate.
Tuttavia, è difficile giustificare in pratica le ipotesi dell'esatto test di Fisher. Poiché il cosiddetto "esatto" deriva dal fatto che nel "esperimento di degustazione di tè" o nel caso delle tabelle di contingenza 2x2, il totale della riga e il totale della colonna, ovvero i totali marginali sono fissati in base alla progettazione. Questa ipotesi è raramente giustificata nella pratica. Per bei riferimenti vedere qui .
Il nome "esatto" porta a credere che i valori di p forniti da questo test siano esatti, il che di nuovo nella maggior parte dei casi non è purtroppo corretto a causa di questi motivi
- Se i marginali non sono fissati in base alla progettazione (cosa che accade quasi sempre nella pratica), i valori p saranno conservativi.
- Poiché il test utilizza una distribuzione di probabilità discreta (in particolare, distribuzione Iperometrica), per alcuni valori limite è impossibile calcolare le "probabilità nulle esatte", ovvero il valore p.
Nella maggior parte dei casi pratici, l'uso di un test del rapporto di verosimiglianza o del test Chi-quadrato non dovrebbe dare risposte molto diverse (valore p) dal test esatto di Fisher. Sì, quando i margini sono fissi, l'esatto test di Fisher è una scelta migliore, ma ciò accadrà raramente. Pertanto, per i controlli di coerenza si consiglia sempre di utilizzare il test Chi-quadrato del test del rapporto di verosimiglianza.
Idee simili si applicano quando il test esatto di Fisher è generalizzato a qualsiasi tabella, il che equivale sostanzialmente al calcolo delle probabilità ipergeometriche multivariate. Pertanto si deve sempre provare a calcolare i valori p basati su distribuzione Chi-quadrato e rapporto di verosimiglianza, oltre a valori p "esatti".