Perché i rapporti di probabilità della formula e del criterio fisher.test di R differiscono? Quale si dovrebbe scegliere?


14

Nel seguente esempio

> m = matrix(c(3, 6, 5, 6), nrow=2)
> m
     [,1] [,2]
[1,]    3    5
[2,]    6    6
> (OR = (3/6)/(5/6))    #1
[1] 0.6
> fisher.test(m)        #2

    Fisher's Exact Test for Count Data

data:  m 
p-value = 0.6699
alternative hypothesis: true odds ratio is not equal to 1 
95 percent confidence interval:
 0.06390055 5.07793271 
sample estimates:
odds ratio 
 0.6155891 

Ho calcolato il rapporto di probabilità (n. 1) "manualmente", 0,600; quindi (# 2) come una delle uscite del test esatto di Fisher, 0.616.

Perché non ho ottenuto lo stesso valore?

Perché esistono diversi modi per calcolare il rapporto di probabilità e come scegliere quello più appropriato?

Risposte:


10

Dalla pagina di aiuto per fisher.test():

Si noti che viene utilizzata la stima della probabilità massima massima (MLE) anziché la MLE incondizionata (il rapporto di probabilità del campione).


3

Per aggiungere alla discussione qui, è utile chiedersi che cosa è esattamente condizionato in questa probabilità "condizionale". Il test di Fisher differisce da altre analisi categoriche in quanto considera fissi tutti i margini della tabella mentre il modello di regressione logistica (e il corrispondente test chi-quadrato di Pearson che è il test del punteggio del modello logistico) considerano fisso solo un margine .

Il test di Fisher considera quindi la distribuzione ipergeometrica come un modello di probabilità per i conteggi osservati in ciascuna delle 4 celle. La distribuzione ipergeometrica ha la particolarità che, poiché la distribuzione del rapporto delle probabilità di origine non è continua, si ottiene spesso un OR diverso come stima della massima verosimiglianza.


2
Non credo che la tua risposta chiarisca come potrebbe sorgere questa particolare probabilità. Se modellate il processo di generazione dei dati con un prodotto binomiale, diciamo, ottenete una diversa probabilità (e MLE) in base ai totali marginali, da quello che ottenete se modellatelo con la distribuzione ipergeometrica non centrale di Wallenius - il marginale i totali sono "considerati fissi" in entrambi i casi.
Scortchi - Ripristina Monica

1

Per rispondere alla tua seconda domanda, i biostati non sono il mio punto di forza, ma credo che il motivo delle statistiche sul rapporto di probabilità multiple sia quello di rendere conto della progettazione del campionamento e della progettazione degli esperimenti.

Ho trovato tre riferimenti qui che ti daranno un po 'di comprensione sul perché c'è una differenza tra MLE condizionale vs incondizionato per odds ratio, così come altri tipi.

  1. Stima di punti e intervalli del rapporto di probabilità comune nella combinazione di 2 × 2 tabelle con marginali fissi

  2. L'effetto della distorsione sugli stimatori del rischio relativo per campioni accoppiati e stratificati

  3. Uno studio comparativo della stima della probabilità massima condizionale di un rapporto di probabilità comune


3
Sarebbe utile riassumere almeno un po 'quello che hanno da dire quei riferimenti.
Scortchi - Ripristina Monica

@Scortchi, d'accordo. Sono stato impegnato con il lavoro e ho avuto solo la possibilità di leggere la prima pagina o due di ciascuno. Aggiungerò un riassunto di ciascuno questo fine settimana.
Jon

@Jon Se potessi, sarebbe utile aggiungere quel breve riassunto
Glen_b -Reinstate Monica

@Jon Ho fatto solo una domanda. È stato Bli ad aggiungere una seconda domanda 4 anni dopo che ho pubblicato la mia domanda originale. Non sto annullando la fastidiosa modifica di bli quando hai fatto riferimento alla seconda domanda, ma non sono più sicuro di come accettare una risposta.
Winerd,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.