Un collega sta analizzando alcuni dati biologici per la sua tesi con una cattiva eteroscedasticità (figura sotto). Lo sta analizzando con un modello misto ma sta ancora riscontrando problemi con i residui.
Trasformare il registro delle variabili di risposta pulisce le cose e in base al feedback a questa domanda questo sembra essere un approccio appropriato. Inizialmente, tuttavia, avevamo pensato che ci fossero problemi nell'uso di variabili trasformate con modelli misti. Si è scoperto che avevamo interpretato erroneamente un'affermazione nel SAS di Littell & Milliken (2006) per modelli misti che stava sottolineando perché non è appropriato trasformare i dati di conteggio e quindi analizzarli con un normale modello misto lineare (la citazione completa è sotto) .
Un approccio che ha anche migliorato i residui è stato quello di utilizzare un modello lineare generalizzato con una distribuzione di Poisson. Ho letto che la distribuzione di Poisson può essere utilizzata per modellare dati continui (ad esempio, come discusso in questo post ), e i pacchetti di statistiche lo consentono, ma non capisco cosa succede quando il modello è adatto.
Ai fini della comprensione di come vengono eseguiti i calcoli sottostanti, le mie domande sono: quando si adatta una distribuzione di Poisson a dati continui, 1) i dati vengono arrotondati all'intero più vicino 2) ciò comporta la perdita di informazioni e 3) Quando, se mai, è appropriato utilizzare un modello di Poisson per dati continui?
Littel & Milliken 2006, pg 529 "trasformare i dati [count] può essere controproducente. Ad esempio, una trasformazione può distorcere la distribuzione degli effetti casuali del modello o la linearità del modello. Ancora più importante, la trasformazione dei dati lascia ancora aperta la possibilità di conteggi previsti negativi. Di conseguenza, l'inferenza da un modello misto che utilizza dati trasformati è altamente sospetta. "