Modelli misti lineari generalizzati: selezione del modello


10

Questa domanda / argomento è emersa in una discussione con un collega e stavo cercando alcune opinioni su questo:

Sto modellando alcuni dati usando una regressione logistica di effetti casuali, più precisamente una regressione logistica di intercettazione casuale. Per gli effetti fissi ho 9 variabili che sono di interesse e vengono prese in considerazione. Vorrei fare una sorta di selezione del modello per trovare le variabili che sono significative e dare il modello "migliore" (solo effetti principali).

La mia prima idea era quella di utilizzare l'AIC per confrontare diversi modelli, ma con 9 variabili non ero troppo eccitante per confrontare 2 ^ 9 = 512 modelli diversi (parola chiave: dragaggio dei dati).

Ne ho discusso con un collega e mi ha detto che ricordava di aver letto sull'uso della selezione di modelli graduale (o in avanti) con i GLMM. Invece di utilizzare un valore p (ad es. Basato su un test del rapporto di verosimiglianza per i GLMM), si dovrebbe usare l'AIC come criterio di entrata / uscita.

Ho trovato questa idea molto interessante, ma non ho trovato riferimenti che ne abbiano ulteriormente discusso e il mio collega non ha ricordato dove l'aveva letta. Molti libri suggeriscono di utilizzare l'AIC per confrontare i modelli, ma non ho trovato alcuna discussione sull'uso di questo insieme a una procedura di selezione del modello graduale o in avanti.

Quindi ho sostanzialmente due domande:

  1. C'è qualcosa di sbagliato nell'utilizzare l'AIC in una procedura di selezione del modello graduale come criterio di entrata / uscita? Se sì, quale sarebbe l'alternativa?

  2. Avete dei riferimenti che discutono la procedura sopra descritta (anche come riferimento per un rapporto finale?

Migliore,

Emilia


3
La selezione graduale del modello consiste nel dragare tutti i dati della selezione completa del sottoinsieme (in realtà cerca di trovare approssimativamente la stessa soluzione in molto meno tempo). La selezione basata su AIC è anche il dragaggio dei dati.
Michael M

Risposte:


8

La selezione graduale è errata nei modelli multilivello per gli stessi motivi della regressione "normale": i valori p saranno troppo bassi, gli errori standard troppo piccoli, le stime dei parametri distorte da 0 ecc. Più importante, ti nega l'opportunità di pensare.

9 IVs non è così tanti. Perché hai scelto quei 9? Sicuramente avevi un motivo.

Una prima cosa da fare è guardare un sacco di trame; quelli precisi dipendono un po 'dal fatto che i tuoi dati siano longitudinali (nel qual caso i grafici con il tempo sull'asse x sono spesso utili) o raggruppati. Ma guarda sicuramente le relazioni tra i 9 IV e il tuo DV (i grafici a scatole parallele sono una semplice possibilità).

L'ideale sarebbe costruire alcuni modelli basati sul senso sostanziale e confrontarli usando AIC, BIC o qualche altra misura. Ma non sorprenderti se nessun modello particolare si presenta come chiaramente il migliore. Non dici in quale campo lavori, ma in molti campi (la maggior parte?), La natura è complicata. Diversi modelli possono adattarsi ugualmente bene e un modello diverso può adattarsi meglio a un set di dati diverso (anche se entrambi sono campioni casuali della stessa popolazione).

Per quanto riguarda i riferimenti - ci sono molti buoni libri su modelli misti non lineari. Quale è il migliore per te dipende da a) In quale campo ti trovi b) Qual è la natura dei dati c) Quale software usi.

In risposta al tuo commento

  1. Se tutte e 9 le variabili sono scientificamente importanti, considererei almeno di includerle tutte. Se una variabile che tutti pensano sia importante finisce per avere un piccolo effetto, è interessante.

  2. Certamente traccia tutte le tue variabili nel tempo e in vari modi.

  3. Per le questioni generali sui modelli multilivello longitudinali mi piacciono Hedeker e Gibbons ; per i modelli longitudinali non lineari in SAS mi piacciono Molenberghs e Verbeke . La stessa documentazione SAS (per PROC GLIMMIX) fornisce anche indicazioni.


In questo studio, i soggetti sono esposti a diverse combinazioni di farmaci ed esercizi nel tempo e il risultato di interesse è la presenza di una determinata condizione respiratoria (sì / no). I pazienti vengono misurati ripetutamente ogni 2 settimane per 6 mesi. In termini di software, utilizzo SAS e R. The 9 IVs, scelti dall'investigatore per la loro importanza scientifica.
Emilia,

L'ispezione dei dati è altrettanto negativa, se non peggio dell'utilizzo della selezione del modello algoritmico. Il motivo è che la selezione del modello algoritmico è ben compresa e può essere potenzialmente adattata; guardare i dati e impiegare un giudizio soggettivo è un processo che non può essere replicato o adattato. In ogni caso, eviterei di fare la selezione del modello perché la selezione del modello invalida l'inferenza. Dato che ci sono solo 9 covariate qui, penso che il miglior consiglio sia quello di lavorare con il modello completo o con un modello selezionato basandosi solo sulla sostanza.
user3903581

3

La selezione del modello può essere effettuata meglio utilizzando metodi di restringimento come LASSO. I metodi graduali sono troppo liberali. Una giustificazione può essere trovata nella pagina web di Tibshirani. Se si utilizza R, esiste un pacchetto chiamato glmmLassoche consente la selezione del modello in modelli di effetti misti lineari generalizzati utilizzando il metodo di restringimento LASSO.


1

Un buon riferimento per la selezione di modelli misti basati su AIC in R (buono anche per i manichini) sarebbe Zuur_2009_Mixed_Effect_Models_and_Extensions_in_Ecology_with_R,

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.