In parole povere: ho una regressione multipla o un modello ANOVA ma la variabile di risposta per ogni individuo è una funzione curvilinea del tempo.
- Come posso sapere quale delle variabili del lato destro sono responsabili di differenze significative nelle forme o negli offset verticali delle curve?
- È un problema di serie temporali, un problema di misure ripetute o qualcos'altro?
- Quali sono le migliori pratiche per l'analisi di tali dati (preferibilmente in
R
, ma sono aperto all'utilizzo di altri software)?
In termini più precisi: diciamo che ho un modello ma è in realtà una serie di punti dati raccolti dal stesso individuo in molti punti temporali , che sono stati registrati come una variabile numerica. Tracciare i dati mostra che per ogni singolo è una funzione quadratica o ciclica del tempo il cui offset, forma o frequenza verticale (nel caso ciclico) potrebbe dipendere in modo significativo dalle covariate. Le covariate non cambiano nel tempo, ovvero un individuo ha un peso corporeo costante o un gruppo di trattamento per la durata del periodo di raccolta dei dati.
Finora ho provato i seguenti R
approcci:
Manova
Anova(lm(YT~A*B,mydata),idata=data.frame(TIME=factor(c(1:10))),idesign=~TIME);
... dov'è
YT
una matrice le cui colonne sono i punti temporali, 10 di questi in questo esempio, ma molto di più nei dati reali.Problema: questo considera il tempo come un fattore, ma i punti temporali non corrispondono esattamente a ciascun individuo. Inoltre, ce ne sono molti relativi alla dimensione del campione, quindi il modello viene saturato. Sembra che la forma della variabile di risposta nel tempo venga ignorata.
Modello misto (come in Pinheiro e Bates, modelli ad effetto misto in S e S-Plus )
lme(fixed=Y~ A*B*TIME + sin(2*pi*TIME) + cos(2*pi*TIME), data=mydata, random=~(TIME + sin(2*pi*TIME) + cos(2*pi*TIME))|ID), method='ML')
... dove
ID
è un fattore che raggruppa i dati per individuo. In questo esempio la risposta è ciclica nel tempo, ma potrebbero invece esserci termini quadratici o altre funzioni del tempo.Problema: non sono sicuro se ogni termine sia necessario (specialmente per termini quadratici) e quali siano interessati da quali covariate.
- È
stepAIC()
un buon metodo per selezionarli? - Se rimuove un termine dipendente dal tempo, lo rimuoverà anche
random
dall'argomento? - Che cosa succede se utilizzo anche una funzione di autocorrelazione (come
corEXP()
) che accetta una formulacorrelation
nell'argomento - dovrei creare quella formula percorEXP()
la stessa di quella inrandom
o solo~1|ID
? - Il
nlme
pacchetto viene raramente menzionato nel contesto di serie storiche al di fuori di Pinheiro e Bates ... non è considerato adatto a questo problema?
- È
Adattare un modello quadratico o trigonometrico a ciascun individuo, quindi utilizzare ciascun coefficiente come variabile di risposta per regressione multipla o ANOVA.
Problema: sono necessarie correzioni multiple del confronto. Non riesco a pensare ad altri problemi che mi rendono sospettoso di trascurare qualcosa.
Come precedentemente suggerito su questo sito ( Qual è il termine per una regressione di serie temporali con più di un predittore? ), Ci sono ARIMAX e modelli di regressione dinamica / funzione di trasferimento .
Problema: i modelli basati su ARMA prevedono tempi discreti, vero? Per quanto riguarda la regressione dinamica, ne ho sentito parlare per la prima volta oggi, ma prima di approfondire l'ennesimo nuovo metodo che potrebbe non riuscire dopo tutto, ho pensato che sarebbe prudente chiedere consiglio alle persone che lo hanno già fatto.