Diagnostica per modelli lineari (misti) generalizzati (in particolare residui)

25

Attualmente sto lottando per trovare il modello giusto per dati di conteggio difficili (variabile dipendente). Ho provato vari modelli diversi (i modelli di effetti misti sono necessari per il mio tipo di dati) come lmere lme4(con una trasformazione logaritmica) nonché modelli di effetti misti lineari generalizzati con varie famiglie come gaussiana o binomiale negativa.

Tuttavia, non sono abbastanza sicuro su come diagnosticare correttamente gli accoppiamenti risultanti. Ho trovato molte opinioni diverse su questo argomento sul Web. Penso che la diagnostica sulla regressione lineare (mista) sia piuttosto semplice. Puoi andare avanti e analizzare i residui (normalità), nonché studiare l'eteroscedasticità tracciando i valori adattati rispetto ai residui.

Tuttavia, come lo si fa correttamente per la versione generalizzata? Concentriamoci su una regressione binomiale (mista) negativa per ora. Ho visto dichiarazioni abbastanza opposte riguardo ai residui qui:

In Verifica dei residui per la normalità nei modelli lineari generalizzati , nella prima risposta si sottolinea che i residui normali non sono normalmente distribuiti per un GLM; Penso che sia chiaro. Tuttavia, allora viene sottolineato che anche i residui di Pearson e di devianza non dovrebbero essere normali. Tuttavia, la seconda risposta afferma che i residui di devianza dovrebbero essere normalmente distribuiti (combinati con un riferimento).
Tuttavia, i residui di devianza che dovrebbero essere normalmente distribuiti sono accennati nella documentazione di ? Glm.diag.plots (dal bootpacchetto di R ).
In questo post del blog , l'autore ha prima studiato la normalità di quelli che presumo siano residui di Pearson per un modello di regressione a effetti misti NB. Come previsto (a mio avviso onesto) i residui non hanno mostrato di essere normali e l'autore ha ritenuto che questo modello non fosse adatto. Tuttavia, come indicato nei commenti, i residui dovrebbero essere distribuiti secondo una distribuzione binomiale negativa. Secondo me, questo si avvicina di più alla verità poiché i residui GLM possono avere distribuzioni diverse da quella normale. È corretto? Come controllare cose come l'eteroscedasticità qui?
L'ultimo punto (tracciare i residui contro i quantili della distribuzione stimata) è sottolineato in Ben & Yohai (2004) . Attualmente, questa sembra la strada da percorrere per me.

In poche parole: come si studiano correttamente gli adattamenti dei modelli di regressione lineare generalizzata (mista) specificatamente concentrandosi sui residui?

— fsociety
fonte

1

I residui per GLM non sono generalmente normali (vedi qui ), ma si noti che ci sono molti tipi di residui per GLM. Ad esempio, glm.diag.plotsdice che è per il residuo di devianza jackknifed (sospetto che la distinzione sia importante). Inoltre, ho raccolto dati sui conteggi ; potresti voler concentrarti su questo fatto. Ad esempio, i conteggi dovrebbero (in un certo senso) essere eteroscedastici. I grafici diagnostici per la regressione del conteggio dovrebbero essere utili per te (sebbene non riguardino l'aspetto degli effetti misti).

— gung - Ripristina Monica

Conosco il post che hai citato. Tuttavia, c'è anche un'affermazione che suggerisce che i residui di (devianza) dovrebbero essere normali "vediamo residui molto grandi e una deviazione sostanziale dei residui di deviazione dal normale (tutti parlando contro il Poisson)".

— fsociety,

19

Questa risposta non si basa sulla mia conoscenza, ma piuttosto cita ciò che Bolker et al. (2009) ha scritto in un articolo influente sulla rivista Trends in Ecology and Evolution . Dal momento che l'articolo non è ad accesso aperto (anche se la ricerca su Google scholar può avere successo, ho pensato di citare passaggi importanti che potrebbero essere utili per affrontare parti delle domande. Quindi, di nuovo, non è quello che mi è venuto in mente ma penso rappresenta le migliori informazioni condensate sui GLMM (compresa la diagnostica) là fuori in uno stile di scrittura molto diretto e di facile comprensione. Se questa risposta non è adatta a qualsiasi motivo, la cancellerò semplicemente. Cose che trovo utile per quanto riguarda le domande riguardanti la diagnostica sono evidenziate inaudace .

Pagina 127:

I ricercatori di fronte a dati non normali spesso provano scorciatoie come trasformare i dati per raggiungere la normalità e l'omogeneità della varianza, usando test non parametrici o basandosi sulla solidità dell'ANOVA classico alla non-anomalia per progetti bilanciati [15]. Potrebbero ignorare del tutto gli effetti casuali (commettendo così una pseudoreplicazione) o trattarli come fattori fissi [16]. Tuttavia, tali collegamenti possono fallire (ad es. I dati di conteggio con molti valori zero non possono essere resi normali dalla trasformazione). Anche quando hanno successo, potrebbero violare ipotesi statistiche (anche i test non parametrici fanno ipotesi, ad esempio di omogeneità della varianza tra i gruppi) o limitare la portata dell'inferenza (non è possibile estrapolare stime di effetti fissi a nuovi gruppi). Invece di trasformare i loro dati in quadri statistici classici, i ricercatori dovrebbero usare approcci statistici che corrispondano ai loro dati. I modelli misti lineari generalizzati (GLMM) combinano le proprietà di due quadri statistici ampiamente utilizzati in ecologia ed evoluzione, i modelli misti lineari (che incorporano effetti casuali) e i modelli lineari generalizzati (che gestiscono dati non normali utilizzando le funzioni di collegamento e la famiglia esponenziale [ad es. distribuzioni normali, di Poisson o binomiali). I GLMM sono lo strumento migliore per analizzare i dati non normali che coinvolgono effetti casuali: in linea di principio, si deve solo specificare una distribuzione, una funzione di collegamento e una struttura degli effetti casuali. modelli misti lineari (che incorporano effetti casuali) e modelli lineari generalizzati (che gestiscono dati non normali usando funzioni di collegamento e distribuzioni di famiglie esponenziali [ad es. normali, di Poisson o binomiali]). I GLMM sono lo strumento migliore per analizzare i dati non normali che coinvolgono effetti casuali: in linea di principio, si deve solo specificare una distribuzione, una funzione di collegamento e una struttura degli effetti casuali. modelli misti lineari (che incorporano effetti casuali) e modelli lineari generalizzati (che gestiscono dati non normali usando funzioni di collegamento e distribuzioni di famiglie esponenziali [ad es. normali, di Poisson o binomiali]). I GLMM sono lo strumento migliore per analizzare i dati non normali che coinvolgono effetti casuali: in linea di principio, si deve solo specificare una distribuzione, una funzione di collegamento e una struttura degli effetti casuali.

Pagina 129, riquadro 1:

I residui hanno indicato una sovraispersione , quindi abbiamo modificato i dati con un modello quasi-Poisson. Nonostante il grande parametro di scala stimato (10.8), i grafici esplorativi non hanno trovato prove di valori anomali a livello di individui, genotipi o popolazioni. Abbiamo usato quasi-AIC (QAIC), usando un grado di libertà per effetti casuali [49], per randomeffect e poi per la selezione del modello ad effetto fisso.

Pagina 133, riquadro 4:

Qui delineamo un quadro generale per la costruzione di un modello completo (il più complesso), il primo passo nell'analisi GLMM. Seguendo questo processo, si possono quindi valutare i parametri e confrontare i sottomodelli come descritto nel testo principale e nella Figura 1.

Specificare effetti fissi (trattamenti o covariate) e casuali (blocchi sperimentali, spaziali o temporali, individui, ecc.). Includi solo interazioni importanti. Limitare il modello a priori a un livello fattibile di complessità, basato su regole empiriche (> 5–6 livelli di effetti casuali per effetto casuale e> 10–20 campioni per livello di trattamento o unità sperimentale) e conoscenza delle dimensioni adeguate del campione acquisite da studi precedenti [64,65].

Scegliere una distribuzione degli errori e una funzione di collegamento (ad es. Distribuzione di Poisson e collegamento di registro per i dati di conteggio, distribuzione binomiale e collegamento di logit per i dati di proporzione).

Controllo grafico : le varianze di dati (trasformate dalla funzione link) sono omogenee tra le categorie? Le risposte dei dati trasformati sono lineari rispetto ai predittori continui? Ci sono individui o gruppi anomali? Le distribuzioni all'interno dei gruppi corrispondono alla distribuzione ipotizzata?

Adatta GLM a effetto fisso sia al set di dati completo (raggruppato) sia all'interno di ciascun livello dei fattori casuali [28,50]. I parametri stimati dovrebbero essere distribuiti approssimativamente normalmente tra i gruppi (i parametri a livello di gruppo possono avere grandi incertezze, specialmente per gruppi con campioni di piccole dimensioni). Modificare il modello in base alle esigenze (ad esempio, modificare la funzione di collegamento o aggiungere covariate).

Montare il GLMM completo. Memoria del computer insufficiente o troppo lenta: ridurre la complessità del modello. Se la stima ha esito positivo su un sottoinsieme dei dati, provare un algoritmo di stima più efficiente (ad esempio PQL, se appropriato). Mancata convergenza (avvisi o errori): ridurre la complessità del modello o modificare le impostazioni di ottimizzazione (assicurarsi che le risposte risultanti abbiano un senso). Prova altri algoritmi di stima. Componenti a varianza zero o singolarità (avvertenze o errori): verificare che il modello sia correttamente definito e identificabile (vale a dire che tutti i componenti possono essere teoricamente stimati). Ridurre la complessità del modello. L'aggiunta di informazioni al modello (covariate aggiuntive o nuovi raggruppamenti per effetti casuali) può alleviare i problemi, così come centrare le covariate continue sottraendo la loro media [50]. Se necessario, elimina gli effetti casuali dal modello completo, cadere (i) termini di interesse biologico meno intrinseco, (ii) termini con varianze stimate molto ridotte e / o grande incertezza, o (iii) termini di interazione. (Errori di convergenza o varianze zero potrebbero indicare dati insufficienti.)

$\chi^2$

I grafici dei residui dovrebbero essere utilizzati per valutare la sovradispersione e le varianze trasformate dovrebbero essere omogenee tra le categorie. Da nessuna parte nell'articolo è stato menzionato che i residui dovrebbero essere distribuiti normalmente.

Penso che il motivo per cui ci sono dichiarazioni contrastanti riflette che i GLMM (pagina 127-128) ...

... sono sorprendentemente difficili da usare anche per gli statistici. Sebbene diversi pacchetti software siano in grado di gestire GLMM (Tabella 1), pochi ecologi e biologi evoluzionisti sono a conoscenza della gamma di opzioni o delle possibili insidie. Nel rivedere gli articoli in ecologia ed evoluzione dal 2005 trovati da Google Scholar, 311 su 537 analisi GLMM (58%) hanno usato questi strumenti in modo inappropriato in qualche modo (vedi materiale supplementare online).

E qui ci sono alcuni esempi completi di utilizzo dei GLMM, compresa la diagnostica.

Mi rendo conto che questa risposta è più simile a un commento e dovrebbe essere trattata come tale. Ma la sezione dei commenti non mi consente di aggiungere un commento così lungo. Anche dal momento che credo che questo documento abbia valore per questa discussione (ma sfortunatamente dietro un muro di pagamento), ho pensato che sarebbe stato utile citare passaggi importanti qui.

Documenti citati:

[15] - GP Quinn, MJ Keough (2002): disegno sperimentale e analisi dei dati per biologi, Cambridge University Press.

[16] - MJ Crawley (2002): Calcolo statistico: un'introduzione all'analisi dei dati usando S-PLUS, John Wiley & Sons.

[28] - JC Pinheiro, DM Bates (2000): Modelli ad effetti misti in S e S-PLUS, Springer.

[49] - F. Vaida, S. Blanchard (2005): informazioni condizionali di Akaike per modelli a effetti misti. Biometrika, 92, pagg. 351–370.

[50] - A. Gelman, J. Hill (2006): analisi dei dati mediante regressione e modelli multilivello / gerarchici, Cambridge University Press.

[64] - NJ Gotelli, AM Ellison (2004): A Primer of Ecological Statistics, Sinauer Associates.

[65] - FJ Harrell (2001): Regressione Modeling Strategies, Springer.

[66] - JK Lindsey (1997): Applicazione di modelli lineari generalizzati, Springer.

[67] - W. Venables, BD Ripley (2002): Modern Applied Statistics con S, Springer.

— Stefan
fonte

Grazie, è davvero utile, sapevo degli esempi di codifica di Bolker, ma non del documento reale in qualche modo. Ciò che mi chiedo ancora è come il controllo grafico si applichi a dati su larga scala con migliaia di gruppi. I pochi documenti (come quello) che tentano di fornire alcune linee guida su come controllare correttamente i tuoi modelli si applicano solo a dati su scala molto piccola. Quindi, è molto più facile scegliere, ad esempio, i gruppi e visualizzare qualcosa. Penso davvero che un buon contributo scientifico possa essere dato se in futuro qualcuno passerà attraverso un esempio più complesso.

— fsociety,

1

Sono contento che sia stato utile! Penso che gli esempi presentati siano già abbastanza complessi (almeno per me). Immagino che il problema maggiore sia che insiemi di dati più grandi e modelli più complessi possano diventare non computazionalmente computazionali come è menzionato nel testo: "[...] per trovare stime ML, è necessario integrare le probabilità su tutti i possibili valori degli effetti casuali. Per i GLMM questo calcolo è nella migliore delle ipotesi lento e nel peggiore dei casi (ad es. per un gran numero di effetti casuali) non realizzabile dal punto di vista computazionale. " Quello che trovo sorprendente, e che dovremmo tenere a mente, è che stiamo usando strumenti che sono in fase di ricerca attiva!

— Stefan,

9

Questa è una vecchia domanda, ma ho pensato che sarebbe utile aggiungere che l'opzione 4 suggerita dall'OP è ora disponibile nel pacchetto DHARMa R (disponibile da CRAN, vedi qui ).

Il pacchetto rende i controlli visivi residui suggeriti dalla risposta accettata molto più affidabili / facili.

Dalla descrizione del pacchetto:

Il pacchetto DHARMa utilizza un approccio basato sulla simulazione per creare residui scalati facilmente interpretabili da modelli misti lineari generalizzati montati. Attualmente sono supportate tutte le classi 'merMod' da 'lme4' ('lmerMod', 'glmerMod'), 'glm' (incluso 'negbin' da 'MASS', ma escluse le quasi-distribuzioni) e le classi modello 'lm'. In alternativa, è possibile elaborare anche simulazioni create esternamente, ad esempio simulazioni predittive posteriori da software bayesiano come "JAGS", "STAN" o "BUGS". I residui risultanti sono standardizzati su valori compresi tra 0 e 1 e possono essere interpretati in modo intuitivo come i residui di una regressione lineare. Il pacchetto fornisce anche una serie di funzioni di tracciamento e test per il tipico problema di errata specificazione del modello,

— Florian Hartig
fonte

1

Ottima aggiunta a questa discussione!

— Stefan,