Fisher's Exact Test con pesi?


12

Qualcuno sa di una variante del test esatto di Fisher che tiene conto dei pesi? Ad esempio pesi di campionamento .
Quindi, invece della solita tabella incrociata 2x2, ogni punto dati ha un valore "massa" o "dimensione" che pesa il punto.

Dati di esempio:

A B weight
N N 1
N N 3
Y N 1
Y N 2
N Y 6
N Y 7
Y Y 1
Y Y 2
Y Y 3
Y Y 4

Fisher's Exact Test utilizza quindi questa tabella incrociata 2x2:

A\B  N  Y All
 N   2  2   4
 Y   2  4   6
All  4  6  10

Se prendessimo il peso come un numero "effettivo" di punti dati, ciò comporterebbe:

A\B  N  Y All
 N   4 13  17
 Y   3 10  13
All  7 23  30

Ma ciò comporterebbe una fiducia troppo alta. Un punto dati che cambia da N / Y a N / N farebbe una grande differenza nella statistica.
Inoltre, non funzionerebbe se un peso contenesse frazioni.

Risposte:


10

Ho il sospetto che i test "esatti" e i pesi di campionamento siano concetti essenzialmente incompatibili. Ho controllato Stata, che ha buone strutture per sondaggi campione e quelli ragionevoli per test esatti, e le sue 8 possibili statistiche test per una tabella a campi incrociati con pesi campione non includono test "esatti" come quelli di Fisher.

L'immissione manuale Stata pertinente (per svy: tabulate twoway ) consiglia di utilizzare il test predefinito in tutti i casi. Questo metodo predefinito si basa sulla consueta statistica chi quadrato di Pearson. Per citare:

"Per rendere conto del progetto dell'indagine, la statistica viene trasformata in statistica F con gradi di libertà non integri usando una correzione di secondo ordine di Rao e Scott (1981, 1984)".

refs:

  • Rao, JNK e AJ Scott. 1981. L'analisi di dati categorici da sondaggi complessi: test Chi-quadrato per la bontà di adattamento e indipendenza nelle tabelle a due vie. Journal of American Statistical Association 76: 221–230.
  • Rao, JNK e AJ Scott. 1984. Sui test chi-quadrati per le tabelle di contingenza a più vie con proporzioni di cellule stimate dai dati dell'indagine. Annali delle statistiche 12: 46–60.

3

Domanda interessante. Cosa intendi per peso?

Sarei propenso a fare un bootstrap ... scegli la tua statistica preferita (es. Fisher's Exact) e calcolarla sui tuoi dati. Quindi assegna nuove celle a ciascuna istanza in base alla tua ipotesi nulla e ripeti il ​​processo 999 volte. Ciò dovrebbe fornire una distribuzione empirica piuttosto buona per la tua statistica test sotto l'ipotesi nulla e consentire un facile calcolo del tuo valore p!


Grazie! Ma speravo in una statistica più veloce e più stabile da calcolare ...
Michel de Ruiter,

2

Una cosa veloce sui pesi campione - di solito sono un modo per incorporare alcune informazioni sulla popolazione da cui si sta campionando - ma di solito si basano su scenari di tipo "grande campione" (tipicamente BLUP o BLU vincolati sotto mentite spoglie). Quindi immagino che i pesi campione probabilmente non faranno meglio di niente pesi. Quale sarebbe meglio penso che sia usare le informazioni sulla popolazione su cui si basava direttamente il progetto del campione.

Ad esempio, su quale base sono state calcolate le probabilità di selezione? La mia scommessa è che conoscevi un totale della popolazione o una sorta di disaggregazione della popolazione che non coinvolge A o B (diciamo l'età per gruppi sessuali). Se questo non è corretto, allora sto per sprecare un po 'di spazio, ma se è corretto, e supponendo che tu abbia avuto totali di popolazione per gruppi (o strati) e all'interno di ciascun gruppo hai avuto una "mini" tabella di contingenza 2 per 2. Quindi ora possiamo scrivere come "obiettivo" della nostra inferenza. O forse è la somma che è il bersaglio dell'inferenza (quanti nella popolazione danno risposta N / N ??). Stai quindi cercando di ragionare suR1,,RkkR1;11,R1;12,R1;21,R1;22,l=1kRl;ijRl;ijdai numeri campionati soggetto al vincolo che per . (nessuno?)rl;iji,jRl;ij=Rl(l=1,,k)

Nota che se le probabilità di campionamento erano basate solo sui dati che probabilmente avresti ricevuto, allora sarebbero irrilevanti (e si applica il test esatto di Fisher), perché una volta che ricevi i dati, sai quale campione hai ricevuto. Quindi la cosa coerente da fare è aggiornare la probabilità di campionamento su se la mth unità è nel campione e se non erano nel campione. Tuttavia, di solito il design si basa su più informazioni rispetto ai dati che si possono osservare. ma nota che sono le informazioni piuttosto che il design del sondaggio in sé che sono importanti. L'inferenza basata sul design è solo un modo piuttosto efficiente per incorporare tutte queste informazioni nella tua analisi.P ( D m ) = 0P(Dm)=1P(Dm)=0

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.