Come combinare gli intervalli di confidenza per un componente di varianza di un modello a effetti misti quando si usa l'imputazione multipla


20

La logica dell'imputazione multipla (MI) è quella di imputare i valori mancanti non una volta ma diverse (in genere M = 5) volte, risultando in M ​​set di dati completati. I set di dati completati M vengono quindi analizzati con metodi di dati completi su cui le stime M e i loro errori standard vengono combinati utilizzando le formule di Rubin per ottenere la stima "complessiva" e il suo errore standard.

Ottimo finora, ma non sono sicuro di come applicare questa ricetta quando si tratta di componenti di varianza di un modello a effetti misti. La distribuzione campionaria di un componente di varianza è asimmetrica, pertanto l'intervallo di confidenza corrispondente non può essere fornito nel tipico formato "stima ± 1,96 * se (stima)". Per questo motivo i pacchetti R lme4 e nlme non forniscono nemmeno gli errori standard dei componenti di varianza, ma forniscono solo intervalli di confidenza.

Possiamo quindi eseguire MI su un set di dati e quindi ottenere intervalli di confidenza M per componente di varianza dopo aver inserito lo stesso modello a effetto misto sui set di dati M completati. La domanda è come combinare questi intervalli M in un intervallo di confidenza "complessivo".

Immagino che ciò dovrebbe essere possibile - gli autori di un articolo (yucel & demirtas (2010) Impatto di effetti casuali non normali sull'inferenza da parte di MI) sembrano averlo fatto, ma non spiegano esattamente come.

Eventuali suggerimenti sarebbero molto obbligati!

Saluti, Rok


Una domanda molto interessante Non vedo l'ora di
ricevere i

@chl: quando ho finito, posso inviarti le tabelle con i risultati, ma in realtà non inventerò nulla di nuovo. Finora sto solo pianificando di confrontare l'MI in un modello di imputazione a due livelli (pacchetto di pacchetto R) con l'MI in un modello normale semplice (ignorando la struttura a due livelli, norma del pacchetto R) e l'eliminazione listwise. In diverse dimensioni del campione, valori della componente di varianza, ecc. Questo dovrebbe essere sufficiente per il seminario (sono uno studente di dottorato), ma non esattamente rivoluzionario. Se hai qualche idea su come "ravvivare" lo studio di simulazione, mi piacerebbe saperlo.
Rok,

1
Un'altra cosa: non sono sicuro che esista una soluzione analitica adeguata a questo problema. Ho esaminato alcune pubblicazioni aggiuntive, ma questo problema è elegantemente esaminato ovunque. Ho anche notato che yucel & demirtas (nell'articolo che ho citato, pagina 798) scrivono: “Questi set di dati a moltiplicazioni imputate sono stati usati per stimare il modello […] usando il pacchetto R lme4 che porta a 10 set di (beta, se (beta) ), (sigma_b, se (sigma_b)) che sono stati poi combinati usando le regole di combinazione MI definite da Rubin. ”
Rok

Sembra che abbiano usato una sorta di scorciatoia per stimare la SE della componente di varianza (che è, ovviamente, inappropriata, poiché la CI è asimmetrica) e quindi ha applicato la formula classica.
Rok,

Ok, grazie. Puoi inserire i tuoi commenti in una risposta in modo che possano essere votati?
chl

Risposte:


8

Questa è un'ottima domanda! Non sono sicuro che questa sia una risposta completa, tuttavia, lascio cadere queste poche righe nel caso in cui aiuti.

Sembra che Yucel e Demirtas (2010) facciano riferimento a un vecchio documento pubblicato nel JCGS, Strategie computazionali per modelli multivariati lineari a effetti misti con valori mancanti , che utilizza un approccio di punteggio ibrido EM / Fisher per la produzione di stime basate sulla probabilità dei VC . È stato implementato nel pacchetto R mlmmm . Non so, tuttavia, se produce EC.

Altrimenti, controllerei sicuramente il programma WinBUGS , che è ampiamente utilizzato per i modelli multilivello, compresi quelli con dati mancanti. Mi sembra di ricordare che funzionerà solo se il tuo MV è nella variabile response, non nelle covariate perché generalmente dobbiamo specificare le distribuzioni condizionali complete (se MV sono presenti nelle variabili indipendenti, significa che dobbiamo dare un le X mancanti e che verranno considerate come un parametro da stimare da WinBUGS ...). Sembra valere anche per R, se mi riferisco al seguente thread su r-sig-mixed, dati mancanti in lme, lmer, PROC MIXED . Inoltre, potrebbe valere la pena guardare il software MLwiN .


Grazie mille per la tua risposta! In linea di principio sono anche interessato a come risolvere un problema concreto come quello che ho descritto (quindi grazie per il suggerimento WinBUGS). Ma al momento sto provando a fare uno studio di simulazione per un seminario in cui esaminerei le prestazioni (tassi di copertura, ecc.) Dell'MI sotto errori di modello. Suppongo che mi dimenticherò solo dei componenti della varianza se non trovo una soluzione e mi concentro sugli effetti fissi, ma è frustrante arrendersi.
Rok,

@Rok Ottima idea per la simulazione! Non vedo l'ora per questo particolare problema. Suppongo che tu
stia

Ho cercato ora, carri armati per i riferimenti! Sfortunatamente, non c'è nulla sull'MI negli archivi misti r-sig; e Gelman fornisce la formula di base su come combinare le inferenze dall'MI quando abbiamo una variazione all'interno e tra le imputazioni fornite (§25.7).
Rok,

6

Commento ripetuto dall'alto:

non sono sicuro che esista una soluzione analitica adeguata a questo problema. Ho esaminato alcune pubblicazioni aggiuntive, ma questo problema è elegantemente trascurato ovunque. Ho anche notato che Yucel e Demirtas (nell'articolo che ho citato, pagina 798) scrivono:

Questi set di dati a moltiplicazioni imputate sono stati usati per stimare il modello […] usando il pacchetto R che lme4porta a 10 set di (beta, se (beta)), (sigma_b, se (sigma_b)) che sono stati quindi combinati usando le regole di combinazione MI definite da Rubin.

Sembra che abbiano usato una sorta di scorciatoia per stimare la SE della componente di varianza (che è, ovviamente, inappropriata, poiché la CI è asimmetrica) e quindi ha applicato la formula classica.


Apprezzo che tu sia tornato per condividere la tua esperienza con questo problema. Sfortunatamente, non ho una vera soluzione, ma forse altri suggerimenti verranno fuori.
chl

"Elegantemente trascurato" ... questa è una frase utile per rivedere la letteratura se mai ne ho sentito uno.
Matt Parker,

3

Disclaimer: questa idea potrebbe essere sciocca e non farò finta di capire le implicazioni teoriche di ciò che sto proponendo.

" Suggerimento " : perché non imputare semplicemente 100 (so di solito fare 5) set di dati, eseguire lme4 o nmle, ottenere gli intervalli di confidenza (ne hai 100) e quindi:

Utilizzando una larghezza di intervallo ridotta (ad esempio intervallo / 1000 o qualcosa del genere), testare l'intervallo di valori possibili di ciascun parametro e includere solo quei piccoli intervalli che compaiono in almeno 95 dei 100 CI. Avresti quindi una "media" di Monte Carlo dei tuoi intervalli di confidenza.

Sono sicuro che ci sono problemi (o forse problemi teorici) con questo approccio. Per esempio, si potrebbe finire con una serie di disgiunti intervalli. Questo può essere o meno una brutta cosa a seconda del campo. Si noti che ciò è possibile solo se si hanno almeno due intervalli di confidenza completamente non sovrapposti che sono separati da una regione con una copertura inferiore al 95%.

Potresti anche considerare qualcosa di più vicino al trattamento bayesiano dei dati mancanti per ottenere una regione credibile posteriore che sarebbe sicuramente meglio formata e teoricamente più supportata del mio suggerimento ad hoc.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.