In un recente articolo Norton et al. (2018) afferma che
Rapporti di probabilità diversi dello stesso studio non possono essere confrontati quando i modelli statistici che danno luogo a stime del rapporto di probabilità hanno variabili esplicative diverse perché ogni modello ha un diverso fattore di ridimensionamento arbitrario. Né l'ampiezza del rapporto di probabilità di uno studio può essere confrontata con l'entità del rapporto di probabilità di un altro studio, poiché campioni diversi e specifiche del modello differenti avranno diversi fattori di ridimensionamento arbitrario. Un'ulteriore implicazione è che l'entità dei rapporti di probabilità di una data associazione in più studi non può essere sintetizzata in una meta-analisi.
Una piccola simulazione lo illustra (il codice R è in fondo alla domanda). Supponiamo che il vero modello sia:
Immagina inoltre che gli stessi dati generati dal modello sopra siano analizzati da quattro diversi ricercatori usando una regressione logistica. Il ricercatore 1 include solo come covariata, il ricercatore 2 include sia che e così via. Le stime medie simulate del rapporto di probabilità per dei quattro ricercatori erano:
res_1 res_2 res_3 res_4
1.679768 1.776200 2.002157 2.004077
È evidente che solo i ricercatori 3 e 4 ottengono il rapporto di probabilità corretto di circa mentre i ricercatori 1 e 2 no. Ciò non accade nella regressione lineare, che può essere facilmente mostrata da una simulazione simile (non mostrata qui). Devo confessare che questo risultato è stato abbastanza sorprendente per me, anche se questo problema sembra essere ben noto . Hernán et al. (2011) definiscono una "stranezza matematica" anziché un pregiudizio.[ 2 ] [ 3 ]
Le mie domande:
- Se i rapporti di probabilità sono sostanzialmente incomparabili tra studi e modelli, come possiamo combinare i risultati di diversi studi per risultati binari?
- Cosa si può dire delle innumerevoli meta-analisi che hanno combinato i rapporti di probabilità di diversi studi in cui ogni studio potrebbe essere adeguato per una diversa serie di covariate? Sono essenzialmente inutili?
Riferimenti
[1]: Norton EC, Dowd BE, Maciejewski ML (2018): Odds ratio - Current Best Practice and Use. JAMA 320 (1): 84-85.
[2]: Norton EC, Dowd BE (2017): Log Odds e l'interpretazione dei modelli Logit. Ris. Servizio sanitario 53 (2): 859-878.
[3]: Hernán MA, Clayton D, Keiding N (2011): svelato il paradosso di The Simpson. Int J Epidemiol 40: 780-785.
Divulgazione
La domanda (incluso il codice R) è una versione modificata di una domanda posta dall'utente timdisher su metodi di dati .
Codice R.
set.seed(142857)
n_sims <- 1000 # number of simulations
out <- data.frame(
treat_1 = rep(NA, n_sims)
, treat_2 = rep(NA, n_sims)
, treat_3 = rep(NA, n_sims)
, treat_4 = rep(NA, n_sims)
)
n <- 1000 # number of observations in each simulation
coef_sim <- "x1" # Coefficient of interest
# Coefficients (log-odds)
b0 <- 1
b1 <- log(2)
b2 <- log(2.5)
b3 <- log(3)
b4 <- 0
for(i in 1:n_sims){
x1 <- rbinom(n, 1, 0.5)
x2 <- rnorm(n)
x3 <- rnorm(n)
x4 <- rnorm(n)
z <- b0 + b1*x1 + b2*x2 + b3*x3 + b4*x4
pr <- 1/(1 + exp(-z))
y <- rbinom(n, 1, pr)
df <- data.frame(y = y, x1 = x1, x2 = x2, x3 = x3, x4 = x4)
model1 <- glm(y ~ x1, data = df, family = "binomial")
model2 <- glm(y ~ x1 + x2, data = df, family = "binomial")
model3 <- glm(y ~ x1 + x2 + x3, data = df, family = "binomial")
model4 <- glm(y ~ x1 + x2 + x3 + x4, data = df, family = "binomial")
out$treat_1[i] <- model1$coefficients[coef_sim]
out$treat_2[i] <- model2$coefficients[coef_sim]
out$treat_3[i] <- model3$coefficients[coef_sim]
out$treat_4[i] <- model4$coefficients[coef_sim]
}
# Coefficients
colMeans(out)
exp(colMeans(out)) # Odds ratios