Modellazione di dati longitudinali in cui l'effetto del tempo varia nella forma funzionale tra gli individui


32

Contesto :

Immagina di avere uno studio longitudinale che ha misurato una variabile dipendente (DV) una volta alla settimana per 20 settimane su 200 partecipanti. Anche se sono interessato in generale, i DV tipici che sto pensando di includere comprendono le prestazioni lavorative dopo l'assunzione o varie misure di benessere a seguito di un intervento di psicologia clinica.

So che la modellazione multilivello può essere utilizzata per modellare la relazione tra tempo e DV. È inoltre possibile consentire ai coefficienti (ad es. Intercetti, pendenze, ecc.) Di variare tra gli individui e stimare i valori particolari per i partecipanti. Ma cosa succede se durante l'ispezione visiva dei dati si rileva che la relazione tra tempo e DV è una delle seguenti:

  • diversi nella forma funzionale (forse alcuni sono lineari e altri sono esponenziali o alcuni hanno una discontinuità)
  • diverso nella varianza degli errori (alcuni individui sono più volatili da un punto temporale all'altro)

Domande :

  • Quale sarebbe un buon modo per avvicinarsi alla modellazione di dati come questo?
  • In particolare, quali approcci sono efficaci nell'identificare diversi tipi di relazioni e nel classificare le persone in base al loro tipo?
  • Quali implementazioni esistono in R per tali analisi?
  • Ci sono riferimenti su come eseguire questa operazione: libro di testo o applicazione effettiva?

Risposte:


20

Suggerirei di guardare le seguenti tre direzioni:

  • clustering longitudinale : questo è senza supervisione, ma si utilizza l'approccio k-means basandosi sul criterio di Calinsky per valutare la qualità del partizionamento (pacchetto kml e riferimenti inclusi nella guida in linea); quindi sostanzialmente non aiuterà a identificare la forma specifica per il corso del tempo individuale, ma solo a separare il profilo di evoluzione omogeneo
  • una sorta di curva di crescita latente che tiene conto dell'eteroscedasticità: la mia ipotesi migliore sarebbe quella di esaminare i riferimenti estesi sul software MPlus , in particolare le FAQ e il mailing. Ho anche sentito parlare del modello eteroscedastico moltiplicativo di effetti casuali (prova a cercare su quelle parole chiave). Trovo questi articoli ( 1 , 2 ) interessanti, ma non li ho guardati nei dettagli. Aggiornerò con riferimenti sulla valutazione neuropsicologica una volta tornata nel mio ufficio.
  • PCA funzionale ( pacchetto fpca ) ma può valere la pena esaminare l'analisi dei dati funzionali

Altri riferimenti (appena sfogliati al volo):


1
Grazie. L'idea di utilizzare una procedura di clustering mi era venuta in mente. Immagino che la sfida sarebbe quella di catturare e ponderare adeguatamente le possibili caratteristiche della curva a livello individuale in modo teoricamente significativo. Vedrò come funziona in kml.
Jeromy Anglim,

1
Bene, funziona abbastanza bene sebbene l'interfaccia sia terribile (e conosco il ragazzo che lo costruisce :) - L'ho usato due mesi fa per separare gruppi clinici basati su profili individuali su misurazioni dello sviluppo (Brunet-Lézine).
chl

1
Ecco un altro riferimento principale per la FDA: psych.mcgill.ca/misc/fda
Mike Lawrence,

1
Ho trovato questa introduzione al collegamento FDA di Ramsay (2008), particolarmente accessibile gbi.agrsci.dk/~shd/public/FDA2008/FDA_Sage.pdf
Jeromy Anglim


6

Mi sembra che i modelli di miscela di crescita potrebbero avere il potenziale per permetterti di esaminare la tua varianza di errore. ( PDF qui). (Non sono sicuro di quali siano i modelli eteroscedastici moltiplicativi, ma dovrò sicuramente verificarli).

I modelli di traiettoria basati su gruppi latenti sono diventati molto popolari recentemente in criminologia. Ma molte persone danno semplicemente per scontato che i gruppi esistano effettivamente, e alcune ricerche astute hanno sottolineato che troverai gruppi anche in dati casuali. Anche notare che l'approccio di modellazione basato su gruppi di Nagin non ti consente di valutare il tuo errore (e onestamente non ho mai visto un modello che assomiglierebbe a una discontinuità).

Sebbene sarebbe difficile con 20 punti temporali, per scopi esplorativi la creazione di semplici euristiche per identificare schemi potrebbe essere utile (ad esempio, sempre basso o sempre alto, coefficiente di variazione). Sto immaginando sparkline in un foglio di calcolo o grafici di coordinate parallele, ma dubito che sarebbero utili (onestamente non ho mai visto un diagramma di coordinate parallele che è molto illuminante).

In bocca al lupo


@chl, Nessun problema, grazie per tutte le risorse che hai elencato qui.
Andy W,

Un buon punto sui gruppi latenti. Ho visto diverse applicazioni di analisi di classe latente e analisi di cluster in cui sembra solo intagliare una variabile continua in categorie così basse e alte ( jeromyanglim.blogspot.com/2009/09/… ). Tuttavia, ho alcuni dati longitudinali a livello individuale che sembrano visivamente provenire da processi di generazione di dati categoricamente distinti (ad esempio, sempre alto, sempre basso, aumento graduale, basso poi aumento improvviso, ecc.) E all'interno di categorie c'è una variazione più continua dei parametri.
Jeromy Anglim,

@Jeromy, non credo che il lavoro che ho citato scoraggerebbe le persone dall'utilizzare tali metodi per identificare i gruppi latenti. Direi che il punto del lavoro è che non puoi usare tali metodi per dedurre unicamente l'esistenza di gruppi, perché troverai sempre gruppi, anche in dati casuali. Spetta a un'interpretazione più soggettiva se quei gruppi che trovi sono reali o sono semplicemente artefatti del metodo. È possibile identificare alcune teorie logiche che generano tali processi e quindi vedere se i gruppi identificati si adattano a tali teorie.
Andy W,

5

Quattro anni dopo aver fatto questa domanda, ho imparato alcune cose, quindi forse dovrei aggiungere alcune idee.

Penso che la modellizzazione gerarchica bayesiana fornisca un approccio flessibile a questo problema.

Software : strumenti come jags, stan, WinBugs e così via potenzialmente combinati con i rispettivi pacchetti di interfaccia R (ad es. Rjags, rstan) semplificano la specifica di tali modelli.

Variabile all'interno dell'errore personale: i modelli bayesiani consentono di specificare facilmente la varianza dell'errore individuale come fattore casuale che varia da persona a persona.

yio=1,...,nj=1,...J

yioj~N(μio,σio2)
μio=γ
γ~N(μγ,σγ2)
σio~solun'mmun'(α,β)

Pertanto, la deviazione standard di ogni persona potrebbe essere modellata come una distribuzione gamma. Ho trovato che questo è un parametro importante in molti settori psicologici in cui le persone variano in quanto variano nel tempo.

Classi latenti di curve: non ho ancora esplorato questa idea, ma è relativamente semplice specificare due o più possibili funzioni di generazione dei dati per ciascun individuo e quindi lasciare che il modello bayesiano scelga il modello più probabile per un determinato individuo. Pertanto, in genere si ottengono probabilità posteriori per ciascun individuo in merito a quale forma funzionale descrive i dati degli individui.

Come schizzo di un'idea per un modello, potresti avere qualcosa di simile al seguente:

yioj~N(μioj,σ2)
μioj=γioλioj(1)+(1-γio)λioj(2)
λioj(1)=θ1io(1)+θ2io(1)exp(-θ3io(1))
λioj(2)=θ1io(2)+θ2io(2)Xioj+θ3io(2)Xioj2
γio=Bernoullio(πio)

Dove Xioj è tempo e λioj(1) rappresenta i valori previsti per un modello esponenziale a tre parametri e λioj(2) rappresenta i valori previsti per un modello quadratico. πio rappresenta la probabilità che il modello sceglierà λioj(1).


Mi sono anche trasferito nel framework bayesiano e ho letto sull'uso dei processi gaussiani per l'analisi delle serie temporali di forme di funzioni incerte. Ancora non chiaro come può essere applicato al caso dei dati gerarchici (vedi la mia query senza risposta qui: groups.google.com/d/msg/stan-users/yjDWtMhxQQE/2TiYevy0ZwUJ )
Mike Lawrence,

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.