Modello misto vs pool di errori standard per studi multi-sito - Perché un modello misto è molto più efficiente?


16

Ho un set di dati composto da una serie di conteggi mensili di "stick rotto" da una manciata di siti. Sto cercando di ottenere una singola stima riassuntiva da due diverse tecniche:

Tecnica 1: montare uno "stick rotto" con un Poisson GLM con una variabile indicatore 0/1 e utilizzare una variabile time & time ^ 2 per controllare le tendenze nel tempo. La stima della variabile dell'indicatore 0/1 e la SE sono raggruppate usando un metodo piuttosto semplice su e giù della tecnica dei momenti, oppure usando il pacchetto tlnise in R per ottenere una stima "bayesiana". Questo è simile a quello che Peng e Dominici fanno con i dati sull'inquinamento atmosferico, ma con meno siti (~ una dozzina).

Tecnica 2: abbandonare alcuni dei controlli specifici del sito per le tendenze nel tempo e utilizzare un modello misto lineare. Particolarmente:

lmer(cases ~ indicator + (1+month+I(month^2) + offset(log(p)), family="poisson", data=data)

La mia domanda riguarda gli errori standard che emergono da queste stime. L'errore standard della tecnica 1, che attualmente utilizza un tempo settimanale anziché mensile impostato e quindi dovrebbe avere una maggiore precisione, presenta un errore standard sulla stima di ~ 0,206 per l'approccio Metodo dei momenti e ~ 0,306 per il tempo.

Il metodo lmer fornisce un errore standard di ~ 0,09. Le stime degli effetti sono ragionevolmente vicine, quindi non sembra che si stiano solo concentrando su stime di riepilogo diverse tanto quanto il modello misto è notevolmente più efficiente.

È qualcosa che è ragionevole aspettarsi? In tal caso, perché i modelli misti sono molto più efficienti? Si tratta di un fenomeno generale o di un risultato specifico di questo modello?


È difficile rispondere a questa domanda senza sapere esattamente quale modello si adatta alla propria Tecnica 1. Si menzionano 3 possibilità, ma per quanto ne so, non accontentarsi mai di una. Poi in seguito dici "L'errore standard della Tecnica 1 [...] è ~ 0.206". Per quale modello è questo l'errore standard? Pubblicherai la sintassi che hai usato per adattare questo modello, come hai fatto per Technique 2? Ancora meglio sarebbe fornire un esempio riproducibile (non necessariamente il set di dati originale) al quale noi stessi potremmo adattare entrambi i modelli.
Jake Westfall,

@JakeWestfall Hai ragione, quando l'ho scritto per la prima volta è stato una specie di flusso di coscienza quando il problema si è sviluppato. Farò qualche modifica e vedrò se può essere più utile. Sfortunatamente, il codice ha vagato da qualche parte ...
Fomite

Fatto un po 'di pulizia - il design dei modelli utilizza le stesse variabili. Sfortunatamente, codice, dati, ecc. Sono su un'altra macchina e sono a una conferenza. La domanda alla radice potrebbe essere ridotta, credo, a "Stime di più siti: i modelli misti sono sempre / spesso più efficienti del pooling?"
Fomite

Risposte:


5

So che questa è una vecchia domanda, ma è relativamente popolare e ha una risposta semplice, quindi spero che possa essere utile per gli altri in futuro. Per uno sguardo più approfondito, dai un'occhiata al corso di Christoph Lippert sui modelli misti lineari che li esamina nel contesto degli studi di associazione a livello del genoma qui . In particolare vedi lezione 5 .

Il motivo per cui il modello misto funziona molto meglio è che è progettato per tenere conto esattamente di ciò che stai cercando di controllare: la struttura della popolazione. Le "popolazioni" nel tuo studio sono i diversi siti che utilizzano, ad esempio, implementazioni leggermente diverse ma coerenti dello stesso protocollo. Inoltre, se i soggetti del tuo studio sono persone, le persone raggruppate da siti diversi hanno meno probabilità di essere correlate rispetto alle persone dello stesso sito, quindi anche la correlazione con il sangue può svolgere un ruolo.

N(Y|Xβ,σ2)KN(Y|Xβ+Zu,σ2io+σg2K)

Poiché stai cercando di controllare esplicitamente la struttura della popolazione, non sorprende quindi che il modello misto lineare abbia superato le altre tecniche di regressione.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.