Antefatto: attualmente sto lavorando a un confronto tra vari modelli gerarchici bayesiani. I dati sono misure numeriche di benessere per il partecipante i e il tempo j . Ho circa 1000 partecipanti e da 5 a 10 osservazioni per partecipante.
Come con la maggior parte dei set di dati longitudinali, mi aspetto di vedere una qualche forma di auto-correlazione per cui le osservazioni più vicine nel tempo hanno una correlazione maggiore rispetto a quelle che sono più distanti. Semplificando alcune cose, il modello base è il seguente:
dove sto confrontando un modello no lag:
con un modello di ritardo:
dove è una media a livello di persona e β 1 è il parametro di ritardo (ovvero, l'effetto di ritardo aggiunge un multiplo della deviazione dell'osservazione dal punto temporale precedente dal valore previsto di quel punto temporale). Ho anche dovuto fare alcune cose per stimare y i 0 (cioè l'osservazione prima della prima osservazione).
I risultati che sto ottenendo indicano che:
- Il parametro lag è circa .18, 95% CI [.14, .21]. Cioè, è diverso da zero
- La devianza media e il DIC aumentano entrambi di diverse centinaia quando il ritardo è incluso nel modello
- Controlli predittivi posteriori mostrano che includendo l'effetto lag, il modello è in grado di recuperare meglio l'auto-correlazione nei dati
Quindi, in sintesi, il parametro di ritardo diverso da zero e i controlli predittivi posteriori suggeriscono che il modello di ritardo è migliore; tuttavia, devianza media e DIC suggeriscono che il modello no lag è migliore. Questo mi confonde.
La mia esperienza generale è che se aggiungi un parametro utile dovrebbe almeno ridurre la deviazione media (anche se dopo una penalità di complessità il DIC non viene migliorato). Inoltre, un valore pari a zero per il parametro lag raggiungerebbe la stessa deviazione del modello no lag.
Domanda
Perché l'aggiunta di un effetto di ritardo potrebbe aumentare la devianza in un modello gerarchico bayesiano anche quando il parametro di ritardo è diverso da zero e migliora i controlli predittivi posteriori?
Pensieri iniziali
- Ho fatto molti controlli di convergenza (ad esempio, guardando i tracciati; esaminando la variazione dei risultati di devianza attraverso le catene e attraverso le corse) ed entrambi i modelli sembrano essere convergenti sul posteriore.
- Ho fatto un controllo del codice in cui ho forzato l'effetto di ritardo su zero, e questo ha recuperato le deviazioni del modello senza ritardo.
- Ho anche esaminato la devianza media meno la penalità che dovrebbe produrre devianza ai valori previsti, e questi hanno anche peggiorato il modello di ritardo.
- Forse c'è qualche problema con come ho stimato il punto temporale implicito prima della prima osservazione.
- Forse l'effetto di ritardo è solo debole in questi dati
- Ho provato a stimare il modello usando la massima verosimiglianza usando
lme
concorrelation=corAR1()
. La stima del parametro lag era molto simile. In questo caso il modello di ritardo presentava una probabilità di log maggiore e un AIC più piccolo (di circa 100) rispetto a uno senza ritardo (ovvero, suggeriva che il modello di ritardo era migliore). Quindi questo ha rafforzato l'idea che l'aggiunta del ritardo dovrebbe anche ridurre la devianza nel modello bayesiano. - Forse c'è qualcosa di speciale nei residui bayesiani. Se il modello di ritardo utilizza la differenza tra y previsto e effettivo nel punto temporale precedente, questa quantità sarà incerta. Pertanto, l'effetto di ritardo opererà su un intervallo credibile di tali valori residui.