È consentito includere il tempo come predittore in modelli misti?

Ho sempre creduto che il tempo non dovesse essere usato come un predittore nelle regressioni (inclusi quelli di gam) perché, quindi, si potrebbe semplicemente "descrivere" la tendenza stessa. Se lo scopo di uno studio è trovare parametri ambientali come la temperatura, ecc. Che spieghino la varianza, diciamo, dell'attività di un animale, allora mi chiedo, come può essere utile il tempo? come proxy per parametri non misurati?

Alcune tendenze nel tempo sui dati di attività delle focene del porto possono essere viste qui: -> Come gestire le lacune in una serie temporale quando si fa GAMM?

il mio problema è: quando includo il tempo nel mio modello (misurato in giorni di Julian), allora il 90% di tutti gli altri parametri diventa insignificante (il restringimento della ts più regolare da mgcv li elimina). Se lascio il tempo libero, alcuni di loro sono significativi ...

La domanda è: il tempo è concesso come predittore (forse addirittura necessario?) O sta rovinando la mia analisi?

Molte grazie in anticipo

r time-series mixed-model nonlinear-regression

— Jens
fonte

Il tempo è concesso; se è necessario dipenderà da cosa stai cercando di modellare? Il problema che hai è che hai covariate che insieme sembrano adattarsi alla tendenza nei dati, cosa che il Tempo può fare altrettanto bene ma usando meno gradi di libertà - quindi vengono abbandonati invece del Tempo.

Se l'interesse è modellare il sistema, la relazione tra la risposta e le covariate nel tempo, piuttosto che modellare il modo in cui la risposta varia nel tempo, quindi non includere il Tempo come covariata. Se l'obiettivo è modellare il cambiamento nel livello medio della risposta, includere il Tempo ma non includere la covariata. Da quello che dici, sembrerebbe che tu voglia il primo, non il secondo, e che non dovresti includere il Tempo nel tuo modello. (Ma considera le informazioni extra di seguito.)

Ci sono un paio di avvertimenti però. Affinché la teoria sia valida, i residui dovrebbero essere iid (o id se si rilassa l'assunzione di indipendenza usando una struttura di correlazione). Se si sta modellando la risposta in funzione delle covariate e queste non modellano adeguatamente alcuna tendenza nei dati, i residui avranno una tendenza, che viola le ipotesi della teoria, a meno che la struttura di correlazione montata non sia in grado di far fronte a questa tendenza.

Al contrario, se si sta modellando la tendenza nella sola risposta (includendo solo il Tempo), potrebbero esserci variazioni sistematiche nei residui (sulla tendenza adattata) che non sono spiegate dalla tendenza (Tempo) e ciò potrebbe anche violare le ipotesi per i residui. In tali casi potrebbe essere necessario includere altre covariate per rendere i residui iid

Perchè questo è un problema? Bene, quando stai testando se la componente di tendenza, per esempio, è significativa, o se gli effetti delle covariate sono significativi, la teoria usata supporrà che i residui siano iid Se non lo sono, le ipotesi non saranno soddisfatte e il i valori di p saranno distorti.

Il punto di tutto ciò è che è necessario modellare tutti i vari componenti dei dati in modo tale che i residui siano adatti alla teoria che si utilizza, per verificare se i componenti montati sono significativi, per essere validi.

Ad esempio, consideriamo i dati stagionali e vogliamo adattare un modello che descriva la variazione a lungo termine dei dati, la tendenza. Se modelliamo solo la tendenza e non la variazione ciclica stagionale, non siamo in grado di testare se la tendenza adattata è significativa perché i residui non saranno considerati Per tali dati, dovremmo adattare un modello sia con una componente stagionale sia con una tendenza componente e un modello null che conteneva solo il componente stagionale. Confronteremmo quindi i due modelli utilizzando un test del rapporto di verosimiglianza generalizzato per valutare l'importanza della tendenza adattata. Questo viene fatto usando anova()sui $lmecomponenti dei due modelli montati usando gamm().

— Gavin Simpson
fonte

Caro Gavin, molte grazie per i tuoi commenti molto utili. Spero di poterti aiutare presto;) quando provo il GLRT con anova mi dice "oggetto" riparato "non trovato" :(

— Jens,

@Jens la chiamata dovrebbe essere anova(mod1$lme, mod2$lme). Se stai adattando un modello non gaussiano, questo potrebbe non funzionare in quanto non esiste una reale verosimiglianza nei metodi PQL, aumentando la quasi verosimiglianza nel nome PQL. Questo è uno dei motivi per usare gamm4 , ma poi devi fare qualcosa sulla struttura di correlazione poiché lme4 non lo consente.

— Gavin Simpson,