Indipendenza dei residui in un esperimento / simulazione computerizzato?


17

Ho condotto una valutazione computerizzata dei diversi metodi di adattamento a un particolare tipo di modello utilizzato nelle scienze del paleo. Avevo un set di addestramento di grandi dimensioni e quindi ho casualmente (campionamento casuale stratificato) messo da parte un set di test. Ho montato metodi diversi per i campioni del training set e con il risultante modelli avevo previsto la risposta per i campioni test set e calcolato un RMSEP sui campioni nel test set. Questa è una singola corsa .mm

Ho quindi ripetuto questo processo un gran numero di volte, ogni volta che ho scelto un set di allenamento diverso campionando casualmente un nuovo set di test.

Fatto ciò, voglio verificare se uno dei metodi ha prestazioni RMSEP migliori o peggiori. Vorrei anche fare più confronti tra i metodi di coppia.m

Il mio approccio è stato quello di adattare un modello lineare a effetti misti (LME), con un singolo effetto casuale per Run . Ho usato lmer()dal pacchetto lme4 per adattare il mio modello e le funzioni dal pacchetto multcomp per eseguire i confronti multipli. Il mio modello era essenzialmente

lmer(RMSEP ~ method + (1 | Run), data = FOO)

dove methodè un fattore che indica quale metodo è stato utilizzato per generare le previsioni del modello per il set di test ed Runè un indicatore per ogni particolare Run del mio "esperimento".

La mia domanda riguarda i residui dell'LME. Dato il singolo effetto casuale per la corsa , presumo che i valori RMSEP per quella corsa siano correlati in una certa misura ma non siano correlati tra le serie, sulla base della correlazione indotta che l'effetto casuale offre.

Questa ipotesi di indipendenza tra le piste è valida? In caso contrario, esiste un modo per tener conto di ciò nel modello LME o dovrei cercare di utilizzare un altro tipo di analisi statica per rispondere alla mia domanda?


I residui sono condizionati dagli effetti casuali previsti o incondizionati e nelle simulazioni gli effetti casuali previsti sono costanti o variabili. Ricorda di provare ad avere un'idea di ciò per i metodi di simulazione predefiniti in LME4 e di non poterlo fare (ma il progetto è stato annullato prima che lo risolvessi).
Phaneron,

Non sono sicuro che seguirò fino in fondo, ma le varie serie di set di allenamento per il sorteggio -> modelli di adattamento -> RMSEP di calcolo sono state eseguite prima dell'LME. L'effetto casuale è per l'esecuzione poiché ogni esecuzione avrà un'intercettazione diversa (RMSEP) poiché vengono scelte diverse combinazioni di campioni del set di test, ma questo è costante durante l'esecuzione. Per quanto riguarda il bit condizionale / incondizionato, non sono sicuro / chiaro cosa intendi. Grazie per il tuo commento.
Ripristina Monica - G. Simpson,

Risposte:


4

Stai essenzialmente facendo una qualche forma di validazione incrociata qui per ciascuno dei tuoi metodi m e poi vorresti vedere quale metodo ha funzionato meglio. I risultati tra le corse dipenderanno sicuramente, poiché si basano sugli stessi dati e si sovrappongono tra i treni / i set di prova. La domanda è se questo dovrebbe importare quando vieni a confrontare i metodi.

Diciamo che eseguiresti solo una corsa e scopriresti che un metodo è migliore degli altri. Ti chiederesti quindi: è semplicemente dovuto alla scelta specifica del set di test? Questo è il motivo per cui ripetete il test per molti diversi set treno / test. Quindi, al fine di determinare che un metodo è migliore di altri metodi, esegui molte volte e in ogni esecuzione confrontalo con gli altri metodi (hai diverse opzioni di guardare l'errore / classifica / ecc.). Ora, se scopri che un metodo funziona meglio sulla maggior parte delle esecuzioni, il risultato è quello che è. Non sono sicuro che sia utile dare un valore p a questo. Oppure, se vuoi dare un valore p, chiediti qual è il modello di sfondo qui?


Grazie per i tuoi pensieri Penso che le tue ultime righe riassumano praticamente dove sono ora. In previsione di ciò, ho un seguito in cui chiedo modi appropriati di analizzare questo tipo di dati. Mi piace anche il tuo punto su "è quello che è"; che aveva turbinato ai margini del mio processo di pensiero anche di recente.
Ripristina Monica - G. Simpson,

Un problema che ho con il "risultato è quello che è" è che gli RMSEP sono abbastanza variabili da corsa a corsa. Quindi in media uno o due metodi sono migliori, ma sono davvero migliori data la variabilità degli RMSEP? Quindi sto provando un LME con effetto casuale per Run. Per modificare tale approccio avrei bisogno di sapere chi è correlato a ciascun set di dati. Sembrerebbe che qualsiasi test statistico che faccio debba essere così modificato. Quindi faccio ancora fatica a interpretare i mezzi delle 50 corse per ciascun metodo e se posso trarre delle conclusioni ...?
Ripristina Monica - G. Simpson,

1
Per come la vedo io, valutare i tuoi metodi su tutte le possibili partizioni di treni / test dei tuoi dati sarebbe stata la valutazione più completa. Poiché ciò è impossibile, lo stai stimando con corse casuali. Supponiamo che tu possa valutare tutte le partizioni di treni / test: rimarrebbe comunque la domanda su come decidere quale metodo è migliore. Quindi questo è più una questione di come si definisce ciò che è "buono". Significa punteggio medio alto? O significa che in molte sessioni un metodo ottiene un punteggio più alto rispetto agli altri (personalmente penso che questa sarebbe una versione migliore)?
Bitwise,

1

Potrebbe non capire davvero cosa hai fatto ma

per l'esecuzione Sto assumendo che i valori RMSEP per quell'esecuzione siano correlati in una certa misura

Sì, questo riflette quanto sia stato difficile il set di test in quella corsa

ma non sono correlati tra le esecuzioni

No, dato il modo in cui hai campionato i set di test alcuni saranno più sovrapposti di altri (sicuramente non repliche indipendenti)

Dovresti in qualche modo modellare la dipendenza in base alla sovrapposizione o progettare la valutazione in modo che le esecuzioni siano indipendenti. Vorrei leggere la letteratura sulle statistiche sulla validazione incrociata ;-)


+1 Grazie per la risposta. Capisco cosa intendi. Più simili sono i set di test, più simili saranno i loro valori RMSEP. OK, in questo modo è come se i dati fossero spazialmente o temporaneamente correlati. Il modo in cui generi i set di allenamento / set di test dovrebbe significare che in media sono tutti diversi l'uno dall'altro. Non sono sicuro di quale CV mi avrebbe portato qui - e in un certo senso lo sto facendo comunque solo attraverso un approccio di ricampionamento. Probabilmente chiederà quindi un'altra Q su come risolvere il vero problema.
Ripristina Monica - G. Simpson,

Lascerò questo aperto fino alla fine del periodo di ricompensa per vedere se qualcun altro morde, ma apprezzo i tuoi pensieri qui e accetterò e assegnerò ricompensa se non ci sono altre Risposte.
Ripristina Monica - G. Simpson,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.