Test chi-quadro per l'uguaglianza delle distribuzioni: quanti zeri tollera?


10

Sto confrontando due gruppi di mutanti, ciascuno dei quali può avere solo uno su 21 fenotipi diversi. Vorrei vedere se la distribuzione di questi risultati è simile tra due gruppi. Ho trovato un test online che calcola il "test Chi-quadro per l'uguaglianza delle distribuzioni" e mi dà alcuni risultati plausibili. Tuttavia, ho alcuni zero in questa tabella, quindi posso usare chi-square in questo caso?

Ecco la tabella con due gruppi e conteggi di fenotipi particolari:

2 1
2 3
1 6
1 4
13 77
7 27
0 1
0 4
0 2
2 7
2 3
1 5
1 9
2 6
0 3
3 0
1 3
0 3
1 0
1 2
0 1

Il tavolo non è uscito bene. Ogni numero dispari è un conteggio dal gruppo 1 e ogni numero pari è il rispettivo conteggio dal gruppo 2
Membran

Ho riformattato la tua domanda. La tabella ora è corretta?
csgillespie,

Risposte:


8

In questi giorni perfettamente fattibile per fare il test "esatto" di Fisher su un tavolo del genere. Ho appena ricevuto p = 0,087 usando Stata ( tabi 2 1 \ 2 3 \ .... , exact. L'esecuzione ha richiesto 0,19 secondi).

MODIFICA dopo il commento di chl di seguito (ho provato ad aggiungere come commento ma non riesco a formattare):

Funziona in R 2.12.0 per me, anche se ho dovuto aumentare l'opzione 'area di lavoro' oltre il suo valore predefinito di 200000:

> fisher.test(x)
Error in fisher.test(x) : FEXACT error 7.
LDSTP is too small for this problem.
Try increasing the size of the workspace.
> system.time(result<-fisher.test(x, workspace = 400000))
   user  system elapsed 
   0.11    0.00    0.11 
> result$p.value
[1] 0.0866764

(Il tempo di esecuzione è leggermente più rapido rispetto a Stata, ma questo è di dubbia rilevanza dato il tempo impiegato per elaborare il significato del messaggio di errore, che utilizza "area di lavoro" per indicare qualcosa di diverso dal significato abituale di R nonostante il fatto che fisher.test fa parte del pacchetto principale di "stats" di R.)


1
Interessante, il test di Fisher si è schiantato su R.
chl

Non posso votare di più, scusa. Sembra che non abbia aumentato abbastanza il wksp :)
chl

Non è che il test "esatto" di Fisher in realtà affronta una domanda leggermente diversa: "... è usato per esaminare il significato dell'associazione (contingenza) tra i due tipi di classificazione" (pagina wiki). Nel mio caso ho cercato di confermare (o confutare) l'ipotesi che le distribuzioni di fenotipi tra 2 gruppi siano simili (uguali). Quando ho trovato quel test online (vedi il primo post) chiamato "Test chi-quadro per l'uguaglianza delle distribuzioni" ho pensato che fosse proprio per il mio problema ...
Membran,

Inoltre, se ritieni che la versione menzionata del test di Fisher vada bene per il confronto di due distribuzioni, può anche essere usata per verificare l'uniformità della distribuzione (cioè per dire che i fenotipi all'interno di un gruppo sono stati distribuiti in modo non uniforme tra un numero finito di possibili fenotipi) ? Si può fare questo anche in Excel usando la funzione CHITEST, ma cosa succede se ho una distribuzione simile a quelle sopra, con molti fenotipi osservati meno di 5 volte?
Membran,

@Membran # 1: si tratta di una domanda leggermente diversa rispetto alle esatte condizioni di prova di Fisher su entrambi i gruppi di totali marginali. Però mi sembra una specie di statistica accademica, e io sono uno statistico del mondo accademico. (A proposito, potresti chiarire a quale wiki ti riferisci?) @Membran # 2: Non definirei il test esatto condizionale "Test esatto di Fisher" nel caso di una tabella a senso unico, ma tale test dovrebbe essere possibile. E io avrebbe pensato in modo più semplice per le tabelle unidirezionali, ma al momento non riesco a trovare il software che mi aiuti e non ho tempo per eseguire il calcolo senza.
onestop,

5

Le linee guida usuali sono che i conteggi attesi dovrebbero essere maggiori di 5, ma può essere in qualche modo rilassato come discusso nel seguente articolo:

Campbell, I, Chi-squared e Fisher – Irwin test di due per due tabelle con piccoli esempi di raccomandazioni , Statistics in Medicine (2007) 26 (19): 3661–3675.

Vedi anche la homepage di Ian Campbell .

Si noti che in R, c'è sempre la possibilità di calcolare -value con un approccio Monte Carlo ( ), invece di fare affidamento sulla distribuzione asintotica.pchisq.test(..., sim=TRUE)

Nel tuo caso, sembra che circa l'80% dei conteggi attesi siano inferiori a 5 e il 40% siano inferiori a 1. Avrebbe senso aggregare alcuni dei fenotipi osservati?


Grazie per i suggerimenti Logicamente, non è del tutto possibile unire i fenotipi poiché ciascuno di essi è una combinazione unica di tre parametri registrati. Poiché ciascuno di questi parametri può andare "su", "giù" o rimanere "invariato" come risultato di una mutazione, quindi possono esserci 3 ^ 3 = 27 fenotipi distinti. Nell'esempio sopra ho rimosso quei fenotipi per i quali entrambi i gruppi hanno segnato "0", quindi ce ne erano solo 21. Vedo la prevalenza di alcuni fenotipi ma vorrei avere delle prove statistiche che le distribuzioni di tali fenotipi in vari gruppi di mutanti siano simili (o meno). Grazie!
Membran,

1
@Membran Aggregation non deve essere significativo: sei libero di combinare i contenitori in qualsiasi modo tu voglia. Un problema sottile, tuttavia, è che l' aggregazione post-facto getta in dubbio i valori p; l'aggregazione dovrebbe essere indipendente dai dati.
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.