Tabelle di emergenza: quali prove fare e quando?


17

Mi piacerebbe vedere un'estensione di questa discussione sull'antico dibattito chi-sq vs. esatto test di Fisher, allargando un po 'l'ambito. Ci sono molti test per le interazioni in una tabella di contingenza, abbastanza per farmi girare la testa. Spero di ottenere una spiegazione di quale test dovrei usare e quando, e ovviamente una spiegazione sul perché un test dovrebbe essere preferito a un altro.

Il mio problema attuale è il classico caso , ma sono gradite le risposte relative alla maggiore dimensionalità, così come i suggerimenti per l'implementazione delle varie soluzioni in R, almeno nei casi in cui non è ovvio come procedere.n×m

Di seguito ho elencato tutti i test di cui sono a conoscenza; Spero che esponendo i miei errori possano essere corretti.

  • χ2 . Il vecchio standby. Esistono tre opzioni principali qui:

    • La correzione integrata in R per le tabelle 2x2: "una metà viene sottratta da tutte le differenze". Dovrei sempre farlo?|O-E|
    • " " Test, non so come fare in R.N-1χ2
    • Simulazione Monte Carlo. Questo è sempre il migliore? Perché R non mi dà df quando lo faccio?
  • Il test esatto di Fisher .

    • Tradizionalmente avvisato quando ci si aspetta che una cella sia <4, ma apparentemente alcuni contestano questo consiglio.
    • Il presupposto (di solito falso) che i marginali siano corretti è davvero il problema più grande con questo test?
  • Il test esatto di Barnard

    • Un altro test esatto, tranne che non ne ho mai sentito parlare.
  • Regressione di Poisson

    • Una cosa che mi confonde sempre di glms è esattamente come eseguire questi test di significatività, quindi sarebbe utile un aiuto su questo. È meglio fare un confronto tra modelli nidificati? Che dire di un test Wald per un predittore particolare?
    • Dovrei davvero fare sempre la regressione di Poisson? Qual è la differenza pratica tra questo e un test ?χ2

Risposte:


13

Questa è una buona domanda, ma grande. Non credo di poter fornire una risposta completa, ma lancerò del cibo per riflettere.

Innanzitutto, sotto il punto in alto, la correzione a cui ti riferisci è nota come correzione di Yates per la continuità . Il problema è che calcoliamo una statistica inferenziale discreta : (È discreta perché, con solo un numero finito di istanze rappresentate in una tabella di contingenza, lì sono un numero finito di possibili valori riscontrati che questa statistica può assumere.) Nonostante ciò, viene confrontato con un continuo distribuzione di riferimento ( cioè. , il distribuzione con gradi di libertà

χ2=Σ(O-E)2E

χ2 (r-1)(c-1)). Ciò comporta necessariamente una discrepanza a un certo livello. Con un set di dati particolarmente piccolo e se alcune celle hanno valori previsti inferiori a 5, è possibile che il valore p sia troppo piccolo. La correzione di Yates si adatta a questo.

Ironia della sorte, lo stesso problema di fondo (discrepanza discreta-continua) può portare a valori p troppo alti . In particolare, il valore p è convenzionalmente definito come la probabilità di ottenere dati estremi o piùrispetto ai dati osservati. Con dati continui, si comprende che la probabilità di ottenere qualsiasi valore esatto è vanificante, e quindi abbiamo davvero la probabilità di dati più estremi. Tuttavia, con dati discreti esiste una probabilità finita di ottenere dati proprio come i tuoi. Solo il calcolo della probabilità di ottenere dati più estremi del tuo produce valori p nominali troppo bassi (portando a un aumento degli errori di tipo I), ma includere la probabilità di ottenere dati uguali ai tuoi porta a valori p nominali troppo alti (che porterebbe ad un aumento degli errori di tipo II). Questi fatti suggeriscono l'idea del valore medio di p . Con questo approccio, il valore p è la probabilità di dati più estremi del tuo più la metà la probabilità di dati è uguale alla tua.

Come sottolineato, ci sono molte possibilità per testare i dati della tabella di contingenza. Il trattamento più completo dei pro e dei contro dei vari approcci è qui . Quel documento è specifico per le tabelle 2x2, ma puoi ancora imparare molto sulle opzioni per i dati della tabella di contingenza leggendolo.

Penso anche che valga la pena considerare seriamente i modelli. I test più vecchi come il chi-quadrato sono rapidi, facili e compresi da molte persone, ma non ti lasciano con una comprensione dei tuoi dati così completa come ottieni dalla costruzione di un modello appropriato. Se è ragionevole pensare alle righe [colonne] della tabella di contingenza come una variabile di risposta e alle colonne [righe] come variabili esplicative / predittive, un approccio di modellazione segue abbastanza prontamente. Ad esempio, se avessi solo due righe, puoi costruire un modello di regressione logistica ; se sono presenti più colonne, è possibile utilizzare la codifica delle celle di riferimento (codifica fittizia) per creare un modello di tipo ANOVA. D'altra parte, se si dispone di più di due righe, regressione logistica multinomialepuò essere usato allo stesso modo. Se le tue righe hanno un ordine intrinseco, la regressione logistica ordinale produrrebbe prestazioni superiori al multinomiale. Il modello log-lineare (regressione di Poisson) è probabilmente meno rilevante a meno che tu non abbia tabelle di contingenza con più di due dimensioni, secondo me.

Per un trattamento completo di argomenti come questi, le fonti migliori sono i libri di Agresti: o il suo trattamento su vasta scala (più rigoroso), il suo libro introduttivo (più facile ma comunque completo e molto buono), o forse anche il suo libro ordinale .

sol2-test

sol2=ΣOln(OE)


1
Questa è stata una grande spiegazione del problema di fondo, grazie! Inoltre mi è stato detto in passato che il testo di Agresti è una grande risorsa, quindi lo controllerò.
JVMcDellell

4

Cercherò di rispondere ad alcune delle tue domande nel miglior modo possibile dal mio punto di vista. Innanzitutto il test Fisher-Irwin è solo un altro nome per l'esatto test di Fisher. Tranne il fatto che a volte è intenso dal punto di vista computazionale, generalmente preferisco usare il test Fisher. Se c'è qualche problema con questo test, è condizionato sui totali marginali. Il bello del test è che sotto l'ipotesi nulla l'insieme di tabelle di contingenza con gli stessi totali marginali della tabella osservata ha una distribuzione ipergeometrica. Alcune persone sostengono che non vedono la logica per limitare la considerazione alle tabelle con gli stessi totali marginali.

Il test chi-quadrato di Pearson è molto comunemente usato per testare l'associazione nelle tabelle di contingenza. Come molti altri test è approssimativo e quindi il livello di significatività non è sempre accurato. Cochran ha mostrato che in piccoli campioni quando alcune cellule sono molto scarne (ad es. Contengono meno di 5 casi in alcune cellule) l'approssimazione sarà scarsa.

Esistono molti altri test approssimativi. In genere quando si applica il test di Fisher con SAS ottengo i risultati da tutti questi test e di solito danno quasi gli stessi risultati. Ma il test di Fisher è sempre esattamente subordinato ai totali marginali.

Per quanto riguarda la regressione di Poisson, questo è un modello che mette in relazione le variabili categoriali con i totali delle celle. Come ogni modello, dipende da una serie di ipotesi. La cosa più importante è che i conteggi cellulari seguano una distribuzione di Poisson, il che significa che il numero medio di conteggi è uguale alla sua varianza. Questo non è generalmente vero per le distribuzioni di conteggio delle cellule. In caso di sovradispersione (varianza maggiore della media) un modello binomiale negativo potrebbe essere più appropriato.


"Fisher-Irwin Test è solo un altro nome per l'esatto test di Fisher" ... aha, questo commento mi rende meno confuso, grazie!
JVMcDonnell,

3
La tua risposta non ha davvero ridotto la mia confusione su quando fare queste cose. Immagino che una delle cose di cui speravo di sentire sia in che misura i problemi con chi ^ 2 sono risolvibili con la simulazione o le correzioni di Monte Carlo, ecc .; o la misura in cui può essere sostituito da glms. Quindi lascerò questo aperto per un po 'per vedere se posso ottenere più morsi. Ma se dopo qualche istante nessuno accetta, accetterò la tua risposta.
JVMcDonnell,

Per Fisher e Chi-square, penso di averti detto quando puoi usare Chi Square. Se si accetta l'idea di Fisher di condizionare sempre i totali marginali, il test di Fisher è sempre applicabile. Ma se non lo accetti, suppongo che dovresti scegliere un test incondizionato. Per quanto riguarda l'altra batteria di test disponibili, non so nulla delle loro proprietà e quindi non posso davvero consigliarti quando usarli. Dall'esperienza formativa ho visto casi in cui contava perché i risultati sono generalmente in stretto accordo.
Michael R. Chernick,

È vero che Fisher ha pensato che "dovresti sempre condizionare i totali marginali"? Questa ipotesi è valida solo quando i totali marginali sono fissi. Nell'esempio della signora che assaggia il tè, la signora sa che 5 sono il primo latte e 5 sono l'ultimo latte. Ma è più comune negli esperimenti che non esiste una forza che imponga l'applicazione dei marginali. Considera il caso di lanciare due monete 10 volte ciascuna. Quando 5 teste rotolano attorno alla moneta non inizia a dare la coda per preservare i margini. In tali casi è stato documentato che Fisher è altamente conservatore. Ecco perché sono interessato alle alternative.
JVMcDonnell,

Sì. Sono consapevole del fatto che Fisher abbia creduto nella scelta delle distribuzioni di riferimento che utilizzano le informazioni dai dati forniti. Pertanto, egli penserebbe che, indipendentemente dal modo in cui i totali osservati sono arrivati, i tuoi dati osservati dovrebbero essere confrontati solo con i dati che sarebbero accaduti sotto l'ipotesi nulla che seguiva i vincoli sui dati, vale a dire i totali marginali dati. Come con altre idee che Fisher aveva avuto questo è stato controverso.
Michael R. Chernick,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.