Confronto di modelli di effetti misti con lo stesso numero di gradi di libertà

15

Ho un esperimento che proverò ad astrarre qui. Immagina di lanciare tre pietre bianche davanti a te e di chiederti di esprimere un giudizio sulla loro posizione. Registro una varietà di proprietà delle pietre e la tua risposta. Lo faccio su una serie di argomenti. Genero due modelli. Uno è che la pietra più vicina a te predice la tua risposta, e l'altra è che il centro geometrico delle pietre predice la tua risposta. Quindi, usando lmer in RI potrebbe scrivere.

mNear   <- lmer(resp ~ nearest + (1|subject), REML = FALSE)
mCenter <- lmer(resp ~ center  + (1|subject), REML = FALSE)

AGGIORNAMENTO E CAMBIAMENTO - versione più diretta che include numerosi commenti utili

Potrei provare

anova(mNear, mCenter)

Il che non è corretto, ovviamente, perché non sono nidificati e non posso davvero confrontarli in quel modo. Mi aspettavo che anova.mer generasse un errore, ma non è stato così. Ma la possibile nidificazione che potrei provare qui non è naturale e mi lascia ancora con dichiarazioni un po 'meno analitiche. Quando i modelli sono nidificati in modo naturale (ad esempio quadratico su lineare) il test è solo a senso unico. Ma in questo caso cosa significherebbe avere risultati asimmetrici?

Ad esempio, potrei fare un modello tre:

mBoth <- lmer(resp ~ center + nearest + (1|subject), REML = FALSE)

Allora posso Anova.

anova(mCenter, mBoth)
anova(mNearest, mBoth)

Questo è giusto da fare e ora trovo che il centro si aggiunge all'effetto più vicino (il secondo comando) ma BIC in realtà sale quando il più vicino viene aggiunto al centro (correzione per la parsimonia inferiore). Ciò conferma ciò che era sospettato.

Ma questo è sufficiente? Ed è giusto quando il centro e il più vicino sono così fortemente correlati?

Esiste un modo migliore per confrontare analiticamente i modelli quando non si tratta di aggiungere e sottrarre variabili esplicative (gradi di libertà)?

r mixed-model model-selection

— John
fonte

I tuoi modelli non sono nidificati, quale sarebbe la logica per l'utilizzo di un LRT tra i due?

— chl

cose riformulate come da tuo commento

— Giovanni

9

Tuttavia, puoi calcolare gli intervalli di confidenza per i tuoi effetti fissi e segnalare AIC o BIC (vedi ad esempio Cnann et al. , Stat Med 1997 16: 2349).

Ora, potresti essere interessato a dare un'occhiata alla valutazione del modello del mimetismo usando il bootstrap parametrico , di Wagenmakers et al. che sembra assomigliare più da vicino alla tua domanda iniziale sulla valutazione della qualità di due modelli concorrenti.

Altrimenti, i due articoli sulle misure di varianza spiegate in LMM che mi vengono in mente sono:

Lloyd J. Edwards, Keith E. Muller, Russell D. Wolfinger, Bahjat F. Qaqish e Oliver Schabenberger (2008). Una statistica R2 per gli effetti fissi nel modello misto lineare , Statistics in Medicine , 27 (29), 6137–6157.
Ronghui Xu (2003). La misurazione ha spiegato la variazione nei modelli lineari di effetti misti, Statistics in Medicine , 22 (22), 3527–3541.

Ma forse ci sono opzioni migliori.

— CHL
fonte

11

Seguire il suggerimento di Ronaf porta a un articolo più recente di Vuong per un test del rapporto di verosimiglianza su modelli non annidati. È basato sul KLIC (Kullback-Leibler Information Criterion) che è simile all'AIC in quanto minimizza la distanza KL. Ma stabilisce una specifica probabilistica per l'ipotesi, quindi l'uso dell'LRT porta a un confronto più di principio. Una versione più accessibile dei test Cox e Vuong è presentata da Clarke et al; in particolare si veda la Figura 3 che presenta l'algoritmo per il calcolo del test LRT Vuong.

Test del rapporto di verosimiglianza per la selezione del modello e ipotesi non nidificate (Vuong, 1999)
Testare modelli non annidati di relazioni internazionali: rivalutare il realismo (Clarke et al, 2000)

Sembra che ci siano implementazioni R del test Vuong in altri modelli, ma non meno. Tuttavia, lo schema di cui sopra dovrebbe essere sufficiente per implementarne uno. Non credo che tu possa ottenere la probabilità valutata in ciascun punto dati da lmer come richiesto per il calcolo. In una nota su sig-ME, Douglas Bates ha alcuni suggerimenti che potrebbero essere utili (in particolare, la vignetta che menziona).

Più vecchio

Un'altra opzione è quella di considerare i valori adattati dai modelli in un test di precisione della previsione. La statistica Williams-Kloot può essere appropriata qui. L'approccio di base è regredire i valori effettivi rispetto a una combinazione lineare dei valori adattati dei due modelli e testare la pendenza:

Un test per discriminare tra modelli (Atikinson, 1969)
Crescita e stato sociale nell'UE: un'analisi di causalità (Herce et al, 2001)

Il primo documento descrive il test (e altri), mentre il secondo ne ha un'applicazione in un modello di pannello econometrico.

Quando si utilizzano lmere si confrontano AIC, il valore predefinito della funzione è utilizzare il metodo REML (Limitazione massima limitata). Questo va bene per ottenere stime meno distorte, ma quando si confrontano i modelli, è necessario adattarsi di nuovo con REML=FALSEil metodo che utilizza il metodo di massima verosimiglianza. Il libro Pinheiro / Bates menziona alcune condizioni in cui è OK confrontare AIC / Probabilità con REML o ML, e queste potrebbero benissimo applicarsi nel tuo caso. Tuttavia, la raccomandazione generale è semplicemente quella di ri-adattarsi. Ad esempio, vedi il post di Douglas Bates qui:

Come posso estrarre il punteggio AIC da un oggetto modello misto prodotto usando lmer?

— ars
fonte

Non ho specificato che mi ero adattato a REML = FALSE. Sono ancora un po 'in un dilemma però ... L'AIC mi dà una misurazione di tutta la probabilità compresi gli effetti casuali. È un componente di grandi dimensioni. E, naturalmente, è improbabile che gli AIC siano esattamente gli stessi. Pertanto, non è saggio selezionare semplicemente il valore più grande senza alcun modo analitico di dire quanto sia più grande.

— Giovanni,

@John Questa lezione mette in luce punti interessanti su REML vs. ML e AIC (e indica ciò che hai detto, John), j.mp/bhUVNt . La recensione di Bolker su GLMM merita anche una visita : j.mp/cAepqA .

— chl

4

c'è un articolo di drcox che discute il test di modelli separati [non identificati]. considera alcuni esempi, che non aumentano la complessità dei modelli misti. [poiché la mia struttura con codice R è limitata, non sono sicuro di quali siano i tuoi modelli.]

Il documento di Altho Cox potrebbe non risolvere direttamente il tuo problema, può essere utile in due modi.

puoi cercare citazioni su Google per il suo articolo, per vedere se tali risultati successivi si avvicinano a ciò che desideri.
se hai una piega analitica, potresti provare ad applicare il metodo di cox al tuo problema. [forse non per i deboli di cuore.]

btw - cox menziona nel passare l'idea srikant di combinare i due modelli in uno più grande. non persegue il modo in cui si deciderà quale modello è migliore, ma osserva che anche se nessuno dei due modelli è molto buono, il modello combinato potrebbe adattarsi adeguatamente ai dati. [non è chiaro nella tua situazione che un modello combinato avrebbe senso.]

— ronaf
fonte

3

Non conosco R abbastanza bene per analizzare il tuo codice ma ecco un'idea:

Stima un modello in cui hai sia il centro che il vicino come covariate (chiama questo mBoth). Quindi mCenter e mNear sono nidificati in mBoth e puoi usare mBoth come benchmark per confrontare le prestazioni relative di mCenter e mNear.

1

Stavo pensando che questo non sarebbe appropriato perché i due sarebbero in realtà altamente correlati. Poiché il centro è lontano, lo sarà anche il prossimo.

— Giovanni,

@Giovanni buon punto.

Penso che anche il tuo punto sia buono ... In realtà non sono sicuro che sia importante. So che è alto ma sotto 0,8 ... ancora analizzabile.

— Giovanni,