Adattamento di modelli multilivello a dati di rilevamento complessi in R

11

Sto cercando consigli su come analizzare dati di sondaggi complessi con modelli multilivello in R. Ho usato il surveypacchetto per ponderare le probabilità diseguali di selezione nei modelli a un livello, ma questo pacchetto non ha funzioni per la modellazione multilivello. Il lme4pacchetto è ottimo per la modellazione multilivello, ma non so come includere i pesi a diversi livelli di clustering. Asparouhov (2006) pone il problema:

I modelli multilivello vengono spesso utilizzati per analizzare i dati dai progetti di campionamento dei cluster. Tali progetti di campionamento tuttavia utilizzano spesso una disparità di selezione a livello di cluster e a livello individuale. I pesi di campionamento sono assegnati a uno o entrambi i livelli per riflettere queste probabilità. Se i pesi di campionamento vengono ignorati a entrambi i livelli, le stime dei parametri possono essere sostanzialmente distorte.

Un approccio per i modelli a due livelli è lo stimatore multilivello pseudo massima verosimiglianza (MPML) implementato in MPLUS ( Asparouhov et al,? ). Carle (2009) esamina i principali pacchetti software e fornisce alcuni consigli su come procedere:

Per condurre correttamente MLM con dati di sondaggi complessi e pesi di progettazione, gli analisti hanno bisogno di un software in grado di includere pesi in scala al di fuori del programma e includere i "nuovi" pesi in scala senza modifica automatica del programma. Attualmente, tre dei principali programmi software MLM lo consentono: Mplus (5.2), MLwiN (2.02) e GLLAMM. Sfortunatamente, né HLM né SAS possono farlo.

West e Galecki (2013) danno una recensione più aggiornata e citerò a lungo il passaggio pertinente:

Occasionalmente, gli analisti desiderano adattare gli LMM per rilevare set di dati raccolti da campioni con progetti complessi (vedi Heeringa et al, 2010, Capitolo 12). I progetti di campionamento complessi sono generalmente caratterizzati dalla divisione della popolazione in strati, dalla selezione multi-stadio di gruppi di individui all'interno degli strati e da probabilità ineguali di selezione per entrambi i gruppi e gli individui finali campionati. Queste ineguali probabilità di selezione portano generalmente alla costruzione di pesi di campionamento per gli individui, che garantiscono una stima imparziale dei parametri descrittivi quando incorporati in un'analisi. Questi pesi potrebbero essere ulteriormente adattati per la mancata risposta del sondaggio e calibrati sui totali noti della popolazione. tradizionalmente, gli analisti potrebbero prendere in considerazione un approccio basato sul design per incorporare queste complesse caratteristiche di campionamento nella stima dei modelli di regressione (Heeringa et al., 2010). Più recentemente, gli statistici hanno iniziato a esplorare approcci basati su modelli per l'analisi di questi dati, usando gli LMM per incorporare effetti fissi di strati di campionamento ed effetti casuali di cluster campionati.

La principale difficoltà nello sviluppo di approcci basati su modelli per l'analisi di questi dati è stata la scelta di metodi adeguati per incorporare i pesi di campionamento (vedere Gelman, 2007 per un riepilogo dei problemi). Pfeffermann et al. (1998), Asparouhov e Muthen (2006), Rabe-Hesketh e Skrondal (2006) hanno sviluppato una teoria per stimare i modelli multilivello in modo da incorporare i pesi dell'indagine, e Rabe-Hesketh e Skrondal (2006), Carle (2009) e Heeringa et al. (2010, capitolo 12) hanno presentato applicazioni utilizzando le attuali procedure software, ma questa continua ad essere un'area attiva di ricerca statistica. Le procedure software in grado di adattare gli MMM sono in varie fasi di attuazione degli approcci che sono stati finora proposti in letteratura per incorporare caratteristiche di progettazione complesse, e gli analisti devono tenerne conto quando si adattano gli LMM a dati di sondaggi campione complessi. Gli analisti interessati ad adattare gli LMM ai dati raccolti da indagini campionarie complesse saranno attratti da procedure in grado di incorporare correttamente i pesi dell'indagine nelle procedure di stima (HLM, MLwiN, Mplus, xtmixed e gllamm), coerenti con la presente letteratura in questo la zona.

Questo mi porta alla mia domanda: qualcuno ha raccomandazioni sulle migliori pratiche per adattare gli LMM a dati di sondaggi complessi in R?

r mixed-model weighted-sampling cluster-sample

— Eric Green
fonte

1

ciao eric, i collegamenti nel paragrafo che inizia i've never said it beforecon questo post su addhealth potrebbero essere di interesse .. :(

— Anthony Damico,

1

@AnthonyDamico, il collegamento è ora interrotto :-(

— Ben Bolker,

@BenBolker lo è! hanno cambiato il nome dei microdati, così ho fatto anche io :) nuova posizione: asdfree.com/search/label/…

— Anthony Damico

Scusate se ho frainteso la vostra domanda, ma la mia comprensione è che avete fissato pesi (noti) dal design dell'esperimento e volete usare un modello misto lineare che includa questi pesi di design. La lmerfunzione nel lme4pacchetto consente di specificare un weightsargomento per il processo di adattamento del modello, quindi se si hanno pesi di progettazione fissi, si dovrebbe essere in grado di incorporarli con quell'argomento. Ho la parte sbagliata del bastone qui? C'è qualche motivo per cui questo è inadeguato alle tue esigenze?

— Ben - Ripristina Monica il

4

Per quanto ne so, al momento non è possibile farlo in R, se in realtà è necessario un modello misto (ad esempio, se ci si preoccupa dei componenti della varianza)

L'argomento dei pesi lme4::lmer() non farà quello che vuoi, perché lmer()interpreta i pesi come pesi di precisione e non come pesi di campionamento. Contrariamente ai normali modelli lineari e generalizzati non si ottengono nemmeno stime dei punti corrette con il codice che tratta i pesi di campionamento come pesi di precisione per un modello misto.

Se non è necessario stimare i componenti di varianza e si desidera solo che le funzionalità multilivello del modello ottengano errori standard corretti, è possibile utilizzare survey::svyglm().

— Thomas Lumley
fonte

0

Il pacchetto WeMix è ora un'opzione, almeno per i modelli multilivello lineari e logistici. Sembra molto lento, rispetto all'esecuzione di questi modelli in Stata o MPlus.

— suckrates
fonte

0

Sto anche affrontando lo stesso problema. Dopo aver cercato molto negli ultimi giorni, ho scoperto che il pacchetto BIFIEsurvey è il più vicino all'analisi di modelli multilivello con dati di sondaggi complessi con pesi campione e replicato e valori plausibili: https://cran.r-project.org/web /packages/BIFIEsurvey/index.html Il pacchetto, tuttavia, è limitato ai modelli a due livelli. Ho anche letto che l'autore del pacchetto "intsvy" prevede a lungo termine che "intsvy" sia in grado di analizzare modelli multilivello, ma ad oggi non è ancora possibile. Se ci sono progressi per quanto riguarda la soluzione di questo problema che potrei aver perso per errore, sarei felice se qualcuno potesse condividerlo.

— G_Konyarov
fonte