Come posso raggruppare mezzi posteriori e intervalli credibili dopo imputazione multipla?


20

Ho usato l'imputazione multipla per ottenere un numero di set di dati completati.

Ho usato i metodi bayesiani su ciascuno dei set di dati completati per ottenere distribuzioni posteriori per un parametro (un effetto casuale).

Come posso combinare / raggruppare i risultati per questo parametro?


Più contesto:

Il mio modello è gerarchico nel senso di singoli alunni (un'osservazione per alunno) raggruppati nelle scuole. Ho fatto più imputazioni (usando MICEin R) sui miei dati dove ho incluso schoolcome uno dei predittori per i dati mancanti - per cercare di incorporare la gerarchia dei dati nelle imputazioni.

Ho adattato un semplice modello di pendenza casuale a ciascuno dei set di dati completati (usando MCMCglmmin R). Il risultato è binario.

Ho scoperto che le densità posteriori della varianza della pendenza casuale sono "ben educate", nel senso che sembrano qualcosa del genere: inserisci qui la descrizione dell'immagine

Come posso combinare / raggruppare i mezzi posteriori e gli intervalli credibili da ciascun set di dati imputato, per questo effetto casuale?


Aggiornamento 1 :

Da quello che ho capito finora, potrei applicare le regole di Rubin alla media posteriore, per dare una media posteriore moltiplicata imputata - ci sono problemi nel farlo? Ma non ho idea di come posso combinare gli intervalli credibili al 95%. Inoltre, dato che ho un campione di densità posteriore effettiva per ogni imputazione, potrei in qualche modo combinarli?


Aggiornamento2 :

Come suggerito da @ cyan nei commenti, mi piace molto l'idea di combinare semplicemente i campioni delle distribuzioni posteriori ottenuti da ogni set di dati completo da imputazione multipla. Tuttavia, vorrei conoscere la giustificazione teorica per farlo.


Se la mancanza di un dato dato è indipendente dal valore del risultato associato, è corretto semplicemente riunire tutti i campioni posteriori dai diversi set di dati imputati e prendere gli intervalli medi e credibili del 95% dei campioni posteriori combinati.
Ciano,

@Cyan equivale a dire che il meccanismo di mancanza è o "mancante a caso" o "mancante completamente a caso" ma non "mancante non a caso" (i soliti presupposti che ho appreso per aver eseguito l'MI)? Conosci qualche riferimento in cui questo "lancio insieme" è giustificato formalmente?
Joe King,

L'imputazione multipla è al centro una procedura bayesiana. Se usi i metodi bayesiani per la stima (MCMC e simili), dovresti semplicemente lanciare la simulazione dei dati mancanti come ulteriore passo di campionamento MCMC per un modello completamente bayesiano e non ti preoccuperai di cercare un'interfaccia tra questi approcci.
StasK

@StasK grazie per il tuo commento. Proverò ad usare questo approccio nel mio prossimo progetto ma sfortunatamente non ho tempo di cambiare il modello adesso. Ho già eseguito le imputazioni e il modello bayesiano su ciascun set di dati imputato: sono state necessarie quasi 3 settimane per l'esecuzione. Pensi che non sia valido per me combinare i campioni posteriori?
Joe King,

Le regole di Rubin si applicano solo ai momenti. Non so se è possibile applicarli a una distribuzione in modo significativo. Forse sì forse no. Può darsi che il meglio che si possa fare sia dire che la corsa MCMC ha prodotto le stime dei punti (medie posteriori) e gli errori standard (varianze posteriori), quindi utilizzare le regole di Rubin per ottenere le stime complessive di punti e varianza. Sai quanto possono essere tragiche le perdite di dfs nel modello gerarchico e quanto sia pericoloso mettere in comune i dati: se hai 5 set di dati completi imputati e campioni 1M MCMC su ciascuno, significa che hai 5 cluster, non 5M iid MCMC punti.
StasK

Risposte:


4

Con posteriori particolarmente ben educati che possono essere adeguatamente descritti da una descrizione parametrica di una distribuzione, potresti essere in grado di prendere semplicemente la media e la varianza che meglio descrive il tuo posteriore e andare da lì. Sospetto che ciò possa essere adeguato in molte circostanze in cui non si ottengono distribuzioni posteriori veramente dispari.


0

Se usi stata esiste una procedura chiamata "mim" che raggruppava i dati dopo l'imputazione usando per modelli di effetti misti. Non so se è disponibile in R.


Grazie. Forse non ho spiegato bene: ho già dei campioni posteriori, da diversi set di dati imputati, e voglio sapere se posso semplicemente combinarli e formare un intervallo credibile moltiplicato?
Joe King,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.