Quale modello di regressione è il più appropriato da utilizzare con i dati di conteggio?

Sto cercando di approfondire un po 'le statistiche, ma sono bloccato con qualcosa. I miei dati sono i seguenti:

Year   Number_of_genes
1990          1
1991          1
1993          3
1995          4

Ora voglio costruire un modello di regressione per essere in grado di prevedere il numero di geni per un dato anno in base ai dati. L'ho fatto con regressione lineare fino ad ora, ma ho fatto qualche lettura e non sembra essere la scelta migliore per questo tipo di dati. Ho letto che la regressione di Poisson potrebbe essere utile, ma non sono sicuro di cosa usare. Quindi la mia domanda è:

Esiste un modello di regressione generale per questo tipo di dati? In caso negativo, cosa devo fare per scoprire quale metodo è il più appropriato da utilizzare (in termini di ciò che devo scoprire sui dati)?

regression count-data poisson-regression

— sequence_hard
fonte

La mia risposta qui: stats.stackexchange.com/questions/142338/… è molto pertinente.

— kjetil b halvorsen,

Riguarda i dati delle serie temporali?

— Michael M

Risposte:

No, non esiste un modello di regressione dei dati di conteggio generale .

(Proprio come non esiste un modello di regressione generale per i dati continui. Un modello lineare con rumore omoschedastico normalmente distribuito è più comunemente assunto e adattato utilizzando i minimi quadrati ordinari. Tuttavia, la regressione gamma o la regressione esponenziale viene spesso utilizzata per gestire ipotesi di distribuzione dell'errore diverse o modelli condizionati di eteroschedasticità, come ARCH o GARCH in un contesto di serie temporali, per gestire il rumore eteroschedastico.)

I modelli comuni includono la regressione di poisson , mentre scrivi, o la regressione binomiale negativa. Questi modelli sono sufficientemente diffusi per trovare tutti i tipi di software, tutorial o libri di testo. Mi piace particolarmente la regressione binomiale negativa di Hilbe . Questa domanda precedente illustra come scegliere tra diversi modelli di dati di conteggio.

Se hai "molti" zeri nei tuoi dati, e specialmente se sospetti che gli zeri possano essere guidati da un diverso processo di generazione dei dati rispetto ai non zeri (o che alcuni zeri provengono da un DGP e altri zeri e non zeri vengono da un DGP diverso), possono essere utili modelli a zero inflazione . Il più comune è la regressione di Poisson (ZIP) gonfiata a zero.

Puoi anche scorrere le nostre precedenti domande taggate sia "regressione" che "conteggio dei dati" .

EDIT: @MichaelM solleva un buon punto. Questo fa apparire come serie temporali di dati di conteggio. (E i dati mancanti per il 1992 e il 1994 mi suggeriscono che dovrebbe esserci uno zero in ciascuno di questi anni. In tal caso, includetelo. Zero è un numero valido e contiene informazioni.) Alla luce di ciò, io suggerirei anche di esaminare le nostre precedenti domande taggate sia con "serie temporali" sia con "conteggio dati" .

— Stephan Kolassa
fonte

Buono, ma i minimi quadrati ordinari sono una procedura di stima, non un modello. Lo sai, ma è una confusione comune, quindi non dovremmo scrivere indulgendolo.

— Nick Cox,

@NickCox: buon punto. Ho modificato il mio post.

— Stephan Kolassa,

La distribuzione "predefinita", la più comunemente usata e descritta, per i dati di conteggio è la distribuzione di Poisson . Molto spesso viene illustrato usando l'esempio del suo primo utilizzo pratico:

Un'applicazione pratica di questa distribuzione fu fatta da Ladislao Bortkiewicz nel 1898 quando gli fu affidato il compito di indagare sul numero di soldati nell'esercito prussiano uccisi accidentalmente da calci a cavallo; questo esperimento ha introdotto la distribuzione di Poisson nel campo dell'ingegneria dell'affidabilità.

La distribuzione di Poisson è parametrizzata per rate per intervallo di tempo fisso ( è anche media e varianza). In caso di regressione, possiamo usare la distribuzione di Poisson in un modello lineare generalizzato con funzione log-linear link $\lambda$ $\lambda$

E (Y | X, β) = λ = \exp (β_{0} + β_{1} X_{1} + \dots + β_{k} X_{k})

$E(Y|X,\beta) = \lambda = \exp\left( \beta_0 + \beta_1 X_1 + \dots + \beta_k X_k \right)$

si chiama regressione di Poisson , poiché possiamo supporre che sia un tasso di distribuzione di Poisson. Si noti tuttavia che per la regressione log-lineare non è necessario formulare tale ipotesi e utilizzare semplicemente GLM con collegamento log con dati non conteggiati. Quando si interpretano i parametri, è necessario ricordare che, a causa dell'utilizzo della trasformazione del log, le modifiche alla variabile indipendente comportano modifiche moltiplicative nei conteggi previsti. $\lambda$

Il problema con l'uso della distribuzione di Poisson per i dati della vita reale è che assume che la media sia uguale alla varianza. La violazione di questo presupposto si chiama sovradispersione . In questi casi puoi sempre usare il modello quasi-Poisson , il modello log-lineare non-Poisson (per grandi conteggi Poisson può essere approssimato mediante distribuzione normale), regressione binomiale negativa (strettamente correlata a Poisson; vedi Berk e MacDonald, 2008), oppure altri modelli, come descritto da Stephan Kolassa .

Per un'introduzione amichevole alla regressione di Poisson puoi anche consultare i documenti di Lavery (2010), o Coxe, West e Aiken (2009).

Lavery, R. (2010). Una guida animata: un'introduzione alla regressione di Poisson. Carta NESUG, sa04.

Coxe, S., West, SG e Aiken, LS (2009). L'analisi dei dati di conteggio: una delicata introduzione alla regressione di Poisson e alle sue alternative. Giornale di valutazione della personalità, 91 (2), 121-136.

Berk, R. e MacDonald, JM (2008). Sovradispersione e regressione di Poisson. Journal of Quantitative Criminology, 24 (3), 269-284.

— Tim
fonte

Confondi adattando una distribuzione di Poisson usando una regressione di Poisson. Non è un requisito assoluto per la regressione di Poisson che la risposta abbia una distribuzione di Poisson. La regressione di Poisson funziona bene per un'ampia varietà di risposte positive, comprese anche le variabili misurate. È una buona idea fare attenzione agli errori standard per l'inferenza, ma è trattabile. Vedi ad esempio blog.stata.com/2011/08/22/…

— Nick Cox

@NickCox giusto, ma la domanda era strettamente sui dati di conteggio, quindi probabilmente non è necessario entrare nei dettagli su altri usi della regressione di Poisson.

— Tim

Non è necessario entrare nei dettagli, concordato; ma ogni ragione per spingere un po 'la regressione di Poisson. La sua utilità è sorprendentemente poco conosciuta; merita almeno di essere in molti più testi intermedi. Inoltre, e più importante qui, non sono affatto d'accordo sul fatto che una volta che la varianza non è uguale significa che dovresti usare altri modelli; questo confonde due problemi abbastanza diversi.

— Nick Cox,

Inoltre, è pertinente il fatto che la regressione di Poisson possa essere utilizzata con variabili misurate, poiché in tali casi se la media sia uguale alla varianza non è neppure significativa in quanto hanno dimensioni diverse. Tali casi sottolineano quindi che il requisito non è tale.

— Nick Cox,

Parte del problema è la terminologia. A mio avviso, la regressione loglineare sarebbe un termine migliore della regressione di Poisson, dato il punto chiave che essere Poisson non è centrale. Ma se un termine del genere viene utilizzato e compreso, è in genere interamente per la modellazione di dati categorici contati. Quindi, la terminologia è piuttosto sbagliata: loglinear dovrebbe essere Poisson e Poisson dovrebbe essere loglinear. Ad ogni modo, il nocciolo della questione è che è un eccellente punto di partenza per la struttura media delle risposte non negative in generale.

\exp (X b)

$\exp(Xb)$

— Nick Cox,

Poisson o binomio negativo sono due modelli ampiamente utilizzati per i dati di conteggio. Opterei per il binomio negativo poiché ha ipotesi migliori per la varianza.

Cosa intendi con "migliore"?

— Tim

Allo stato attuale questo è più un commento che una risposta. Pensi di poterci espandere? Dovresti certamente pensare al commento di Tim - la parola "migliore" è molto vaga

— Silverfish

I modelli binomiali negativi (NB) gestiscono i dati di conteggio troppo dispersi (OD) ipotizzando che ciò sia dovuto al clustering. Quindi utilizza un modello di intercettazione casuale con una struttura di Poisson distribuita "all'interno" e una gamma distribuita "tra". Quale è meglio dipende dal tuo presupposto per OD. Se si assume che il grado di OD vari con la dimensione del cluster, NB può aiutare. Se si assume che si presume che OD sia proporzionale alla dimensione del cluster, quasi-poisson ha questa ipotesi. NB le stime saranno distorte se OD è solo rumore gaussiano. Poisson sarà meno distorto, ma gli errori standard potrebbero essere troppo piccoli con OD.

— Mainard,