Questa risposta non si basa sulla mia conoscenza, ma piuttosto cita ciò che Bolker et al. (2009) ha scritto in un articolo influente sulla rivista Trends in Ecology and Evolution . Dal momento che l'articolo non è ad accesso aperto (anche se la ricerca su Google scholar può avere successo, ho pensato di citare passaggi importanti che potrebbero essere utili per affrontare parti delle domande. Quindi, di nuovo, non è quello che mi è venuto in mente ma penso rappresenta le migliori informazioni condensate sui GLMM (compresa la diagnostica) là fuori in uno stile di scrittura molto diretto e di facile comprensione. Se questa risposta non è adatta a qualsiasi motivo, la cancellerò semplicemente. Cose che trovo utile per quanto riguarda le domande riguardanti la diagnostica sono evidenziate inaudace .
Pagina 127:
I ricercatori di fronte a dati non normali spesso provano scorciatoie come trasformare i dati per raggiungere la normalità e l'omogeneità della varianza, usando test non parametrici o basandosi sulla solidità dell'ANOVA classico alla non-anomalia per progetti bilanciati [15]. Potrebbero ignorare del tutto gli effetti casuali (commettendo così una pseudoreplicazione) o trattarli come fattori fissi [16]. Tuttavia, tali collegamenti possono fallire (ad es. I dati di conteggio con molti valori zero non possono essere resi normali dalla trasformazione). Anche quando hanno successo, potrebbero violare ipotesi statistiche (anche i test non parametrici fanno ipotesi, ad esempio di omogeneità della varianza tra i gruppi) o limitare la portata dell'inferenza (non è possibile estrapolare stime di effetti fissi a nuovi gruppi). Invece di trasformare i loro dati in quadri statistici classici, i ricercatori dovrebbero usare approcci statistici che corrispondano ai loro dati. I modelli misti lineari generalizzati (GLMM) combinano le proprietà di due quadri statistici ampiamente utilizzati in ecologia ed evoluzione, i modelli misti lineari (che incorporano effetti casuali) e i modelli lineari generalizzati (che gestiscono dati non normali utilizzando le funzioni di collegamento e la famiglia esponenziale [ad es. distribuzioni normali, di Poisson o binomiali). I GLMM sono lo strumento migliore per analizzare i dati non normali che coinvolgono effetti casuali: in linea di principio, si deve solo specificare una distribuzione, una funzione di collegamento e una struttura degli effetti casuali. modelli misti lineari (che incorporano effetti casuali) e modelli lineari generalizzati (che gestiscono dati non normali usando funzioni di collegamento e distribuzioni di famiglie esponenziali [ad es. normali, di Poisson o binomiali]). I GLMM sono lo strumento migliore per analizzare i dati non normali che coinvolgono effetti casuali: in linea di principio, si deve solo specificare una distribuzione, una funzione di collegamento e una struttura degli effetti casuali. modelli misti lineari (che incorporano effetti casuali) e modelli lineari generalizzati (che gestiscono dati non normali usando funzioni di collegamento e distribuzioni di famiglie esponenziali [ad es. normali, di Poisson o binomiali]). I GLMM sono lo strumento migliore per analizzare i dati non normali che coinvolgono effetti casuali: in linea di principio, si deve solo specificare una distribuzione, una funzione di collegamento e una struttura degli effetti casuali.
Pagina 129, riquadro 1:
I residui hanno indicato una sovraispersione , quindi abbiamo modificato i dati con un modello quasi-Poisson. Nonostante il grande parametro di scala stimato (10.8), i grafici esplorativi non hanno trovato prove di valori anomali a livello di individui, genotipi o popolazioni. Abbiamo usato quasi-AIC (QAIC), usando un grado di libertà per effetti casuali [49], per randomeffect e poi per la selezione del modello ad effetto fisso.
Pagina 133, riquadro 4:
Qui delineamo un quadro generale per la costruzione di un modello completo (il più complesso), il primo passo nell'analisi GLMM. Seguendo questo processo, si possono quindi valutare i parametri e confrontare i sottomodelli come descritto nel testo principale e nella Figura 1.
Specificare effetti fissi (trattamenti o covariate) e casuali (blocchi sperimentali, spaziali o temporali, individui, ecc.). Includi solo interazioni importanti. Limitare il modello a priori a un livello fattibile di complessità, basato su regole empiriche (> 5–6 livelli di effetti casuali per effetto casuale e> 10–20 campioni per livello di trattamento o unità sperimentale) e conoscenza delle dimensioni adeguate del campione acquisite da studi precedenti [64,65].
Scegliere una distribuzione degli errori e una funzione di collegamento (ad es. Distribuzione di Poisson e collegamento di registro per i dati di conteggio, distribuzione binomiale e collegamento di logit per i dati di proporzione).
Controllo grafico : le varianze di dati (trasformate dalla funzione link) sono omogenee tra le categorie? Le risposte dei dati trasformati sono lineari rispetto ai predittori continui? Ci sono individui o gruppi anomali? Le distribuzioni all'interno dei gruppi corrispondono alla distribuzione ipotizzata?
Adatta GLM a effetto fisso sia al set di dati completo (raggruppato) sia all'interno di ciascun livello dei fattori casuali [28,50]. I parametri stimati dovrebbero essere distribuiti approssimativamente normalmente tra i gruppi (i parametri a livello di gruppo possono avere grandi incertezze, specialmente per gruppi con campioni di piccole dimensioni). Modificare il modello in base alle esigenze (ad esempio, modificare la funzione di collegamento o aggiungere covariate).
Montare il GLMM completo. Memoria del computer insufficiente o troppo lenta: ridurre la complessità del modello. Se la stima ha esito positivo su un sottoinsieme dei dati, provare un algoritmo di stima più efficiente (ad esempio PQL, se appropriato). Mancata convergenza (avvisi o errori): ridurre la complessità del modello o modificare le impostazioni di ottimizzazione (assicurarsi che le risposte risultanti abbiano un senso). Prova altri algoritmi di stima. Componenti a varianza zero o singolarità (avvertenze o errori): verificare che il modello sia correttamente definito e identificabile (vale a dire che tutti i componenti possono essere teoricamente stimati). Ridurre la complessità del modello. L'aggiunta di informazioni al modello (covariate aggiuntive o nuovi raggruppamenti per effetti casuali) può alleviare i problemi, così come centrare le covariate continue sottraendo la loro media [50]. Se necessario, elimina gli effetti casuali dal modello completo, cadere (i) termini di interesse biologico meno intrinseco, (ii) termini con varianze stimate molto ridotte e / o grande incertezza, o (iii) termini di interazione. (Errori di convergenza o varianze zero potrebbero indicare dati insufficienti.)
χ2
I grafici dei residui dovrebbero essere utilizzati per valutare la sovradispersione e le varianze trasformate dovrebbero essere omogenee tra le categorie. Da nessuna parte nell'articolo è stato menzionato che i residui dovrebbero essere distribuiti normalmente.
Penso che il motivo per cui ci sono dichiarazioni contrastanti riflette che i GLMM (pagina 127-128) ...
... sono sorprendentemente difficili da usare anche per gli statistici. Sebbene diversi pacchetti software siano in grado di gestire GLMM (Tabella 1), pochi ecologi e biologi evoluzionisti sono a conoscenza della gamma di opzioni o delle possibili insidie. Nel rivedere gli articoli in ecologia ed evoluzione dal 2005 trovati da Google Scholar, 311 su 537 analisi GLMM (58%) hanno usato questi strumenti in modo inappropriato in qualche modo (vedi materiale supplementare online).
E qui ci sono alcuni esempi completi di utilizzo dei GLMM, compresa la diagnostica.
Mi rendo conto che questa risposta è più simile a un commento e dovrebbe essere trattata come tale. Ma la sezione dei commenti non mi consente di aggiungere un commento così lungo. Anche dal momento che credo che questo documento abbia valore per questa discussione (ma sfortunatamente dietro un muro di pagamento), ho pensato che sarebbe stato utile citare passaggi importanti qui.
Documenti citati:
[15] - GP Quinn, MJ Keough (2002): disegno sperimentale e analisi dei dati per biologi, Cambridge University Press.
[16] - MJ Crawley (2002): Calcolo statistico: un'introduzione all'analisi dei dati usando S-PLUS, John Wiley & Sons.
[28] - JC Pinheiro, DM Bates (2000): Modelli ad effetti misti in S e S-PLUS, Springer.
[49] - F. Vaida, S. Blanchard (2005): informazioni condizionali di Akaike per modelli a effetti misti. Biometrika, 92, pagg. 351–370.
[50] - A. Gelman, J. Hill (2006): analisi dei dati mediante regressione e modelli multilivello / gerarchici, Cambridge University Press.
[64] - NJ Gotelli, AM Ellison (2004): A Primer of Ecological Statistics, Sinauer Associates.
[65] - FJ Harrell (2001): Regressione Modeling Strategies, Springer.
[66] - JK Lindsey (1997): Applicazione di modelli lineari generalizzati, Springer.
[67] - W. Venables, BD Ripley (2002): Modern Applied Statistics con S, Springer.
glm.diag.plots
dice che è per il residuo di devianza jackknifed (sospetto che la distinzione sia importante). Inoltre, ho raccolto dati sui conteggi ; potresti voler concentrarti su questo fatto. Ad esempio, i conteggi dovrebbero (in un certo senso) essere eteroscedastici. I grafici diagnostici per la regressione del conteggio dovrebbero essere utili per te (sebbene non riguardino l'aspetto degli effetti misti).