Come funziona una distribuzione Poisson durante la modellazione di dati continui e comporta la perdita di informazioni?


20

Un collega sta analizzando alcuni dati biologici per la sua tesi con una cattiva eteroscedasticità (figura sotto). Lo sta analizzando con un modello misto ma sta ancora riscontrando problemi con i residui.

Trasformare il registro delle variabili di risposta pulisce le cose e in base al feedback a questa domanda questo sembra essere un approccio appropriato. Inizialmente, tuttavia, avevamo pensato che ci fossero problemi nell'uso di variabili trasformate con modelli misti. Si è scoperto che avevamo interpretato erroneamente un'affermazione nel SAS di Littell & Milliken (2006) per modelli misti che stava sottolineando perché non è appropriato trasformare i dati di conteggio e quindi analizzarli con un normale modello misto lineare (la citazione completa è sotto) .

Un approccio che ha anche migliorato i residui è stato quello di utilizzare un modello lineare generalizzato con una distribuzione di Poisson. Ho letto che la distribuzione di Poisson può essere utilizzata per modellare dati continui (ad esempio, come discusso in questo post ), e i pacchetti di statistiche lo consentono, ma non capisco cosa succede quando il modello è adatto.

Ai fini della comprensione di come vengono eseguiti i calcoli sottostanti, le mie domande sono: quando si adatta una distribuzione di Poisson a dati continui, 1) i dati vengono arrotondati all'intero più vicino 2) ciò comporta la perdita di informazioni e 3) Quando, se mai, è appropriato utilizzare un modello di Poisson per dati continui?

Littel & Milliken 2006, pg 529 "trasformare i dati [count] può essere controproducente. Ad esempio, una trasformazione può distorcere la distribuzione degli effetti casuali del modello o la linearità del modello. Ancora più importante, la trasformazione dei dati lascia ancora aperta la possibilità di conteggi previsti negativi. Di conseguenza, l'inferenza da un modello misto che utilizza dati trasformati è altamente sospetta. "

inserisci qui la descrizione dell'immagine


1
Come @Tomas, non so per quale motivo non dovresti trasformare le variabili prima di un modello misto, e ho letto parecchio su questo argomento. Ho il libro di Ramon e Littel .... a quale pagina ti riferisci?
Peter Flom - Ripristina Monica

Si scopre che abbiamo interpretato erroneamente una dichiarazione a pag 529.
N Brouwer,

Risposte:


22

Ho stimato esiti continui positivi regressioni di Poisson con lo stimatore di varianza linearizzato Huber / White / Sandwich abbastanza frequentemente. Tuttavia, questa non è una ragione particolarmente buona per fare qualcosa, quindi ecco alcuni riferimenti reali.

y

Ci sono anche alcune prove di simulazione incoraggianti di Santos Silva e Tenreyro (2006), in cui il Poisson arriva nel migliore dei modi. Funziona bene anche in una simulazione con molti zeri nel risultato . Puoi anche facilmente fare la tua simulazione per convincerti che questo funziona nel tuo caso di fiocchi di neve.

Infine, puoi anche usare un GLM con una funzione link log e la famiglia Poisson. In questo modo si ottengono risultati identici e si placano le reazioni istintive solo al conteggio dei dati.

Riferimenti senza link non associati:

Gourieroux, C., A. Monfort e A. Trognon (1984). "Metodi pseudo di massima verosimiglianza: applicazioni ai modelli di Poisson" , Econometrica , 52, 701-720.


2
Vedi anche questo bel post sul blog Stata scritto da Bill Gould - blog.stata.com/2011/08/22/…
boscovich,

1
y

C'è un post correlato sul blog Stata che offre ulteriori prove di simulazione .
Dimitriy V. Masterov,

6

La distribuzione di Poisson è solo per i dati di conteggio, cercare di alimentarli con dati continui è una cosa cattiva e credo che non dovrebbe essere fatto. Uno dei motivi è che non sai come ridimensionare la tua variabile continua. E il Poisson dipende molto dalla scala! Ho provato a spiegarlo con un semplice esempio qui . Quindi per questo motivo da solo non avrei usato Poisson per altro che contare i dati.

Ricorda inoltre che GLM svolge 2 funzioni: la funzione di collegamento (trasformando la var di risposta, accedi al caso Poisson) e i residui (in questo caso distrazione di Poisson). Pensa al compito biologico, ai residui, quindi seleziona il metodo corretto. A volte ha senso utilizzare la trasformazione del log, ma rimanere con i residui normalmente distribuiti.

"ma sembra che la saggezza convenzionale sia quella di non trasformare i dati in un modello misto"

Ho sentito questa prima volta! Non ha alcun senso per me. Il modello misto può essere proprio come un normale modello lineare, solo con effetti casuali aggiunti. Puoi mettere una citazione esatta qui? Secondo me, se la trasformazione del registro chiarisce le cose, basta usarla!


Grazie per l'aiuto; quella che pensavo fosse "saggezza convenzionale" era una lettura errata di Littel e Milliken. Ho modificato la mia domanda e aggiunto la citazione da L & M 2006.
N Brouwer,

@NBrouwer: sì, sembra che tu l'abbia frainteso. È brutto trasformare i dati di conteggio ed è ancora più brutto trasformare i dati continui per contare i dati e provare ad adattare Poisson su di essi! Questo è quello che ho cercato di spiegarti. Non farlo Trasforma semplicemente i tuoi dati continui in base alle tue esigenze. Questo è molto comune nelle statistiche, non è necessario preoccuparsene.
Curioso

5

Ecco un'altra grande discussione su come utilizzare il modello di Poisson per adattarsi alle regressioni del registro: http://blog.stata.com/2011/08/22/use-poisson-rather-than-regress-tell-a-friend/ (Lo dico a un amico, proprio come suggerisce la voce del blog). La spinta di base è che usiamo solo la parte del modello di Poisson che è il collegamento del registro. La parte che richiede che la varianza sia uguale alla media può essere ignorata con una stima sandwich della varianza. Questo è tutto per i dati iid, tuttavia; le estensioni cluster / modello misto sono state correttamente referenziate da Dimitriy Masterov .


1

Se il problema è il ridimensionamento della varianza con la media, ma hai dati continui, hai pensato di utilizzare distribuzioni continue in grado di soddisfare i problemi che stai riscontrando. Forse una gamma? La varianza avrà una relazione quadratica con la media, proprio come un binomio negativo, in realtà.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.