Ho condotto una valutazione computerizzata dei diversi metodi di adattamento a un particolare tipo di modello utilizzato nelle scienze del paleo. Avevo un set di addestramento di grandi dimensioni e quindi ho casualmente (campionamento casuale stratificato) messo da parte un set di test. Ho montato metodi diversi per i campioni del training set e con il risultante modelli avevo previsto la risposta per i campioni test set e calcolato un RMSEP sui campioni nel test set. Questa è una singola corsa .
Ho quindi ripetuto questo processo un gran numero di volte, ogni volta che ho scelto un set di allenamento diverso campionando casualmente un nuovo set di test.
Fatto ciò, voglio verificare se uno dei metodi ha prestazioni RMSEP migliori o peggiori. Vorrei anche fare più confronti tra i metodi di coppia.
Il mio approccio è stato quello di adattare un modello lineare a effetti misti (LME), con un singolo effetto casuale per Run . Ho usato lmer()
dal pacchetto lme4 per adattare il mio modello e le funzioni dal pacchetto multcomp per eseguire i confronti multipli. Il mio modello era essenzialmente
lmer(RMSEP ~ method + (1 | Run), data = FOO)
dove method
è un fattore che indica quale metodo è stato utilizzato per generare le previsioni del modello per il set di test ed Run
è un indicatore per ogni particolare Run del mio "esperimento".
La mia domanda riguarda i residui dell'LME. Dato il singolo effetto casuale per la corsa , presumo che i valori RMSEP per quella corsa siano correlati in una certa misura ma non siano correlati tra le serie, sulla base della correlazione indotta che l'effetto casuale offre.
Questa ipotesi di indipendenza tra le piste è valida? In caso contrario, esiste un modo per tener conto di ciò nel modello LME o dovrei cercare di utilizzare un altro tipo di analisi statica per rispondere alla mia domanda?