Quali sono i vantaggi della regressione di Poisson rispetto alla regressione lineare in questo caso?

12

Mi è stato dato un set di dati che contiene il numero di premi guadagnati dagli studenti in una scuola superiore in cui i predittori del numero di premi guadagnati includono il tipo di programma in cui lo studente è stato iscritto e il punteggio sul loro esame finale in matematica.

Mi chiedevo se qualcuno potesse dirmi perché un modello di regressione lineare potrebbe non essere adatto in questo caso e perché sarebbe meglio usare una regressione di Poisson? Grazie.

— Emily
fonte

14

Tre punti sulla regressione di Poisson vs Normal, tutti relativi alle specifiche del modello:

Effetto dei cambiamenti nei predittori

Con un predittore continuo come il punteggio del test matematico La regressione di Poisson (con il solito link di registro) implica che una variazione unitaria nel predittore porta a una variazione percentuale del numero di premi, vale a dire 10 punti in più nel test matematico sono associati, ad esempio, al 25 percento più premi. Ciò dipende dal numero di premi che lo studente ha già previsto di avere. Al contrario, la regressione normale associa 10 punti in più a un importo fisso, diciamo 3 premi in più in ogni circostanza. Dovresti essere soddisfatto di tale presupposto prima di utilizzare il modello che lo rende. (prima penso che sia molto ragionevole, modulo il prossimo punto.)

Trattare con studenti senza premi

A meno che non ci siano davvero molti premi distribuiti su molti studenti, il tuo numero di premi sarà per lo più piuttosto basso. In effetti predirei l'inflazione zero, cioè la maggior parte degli studenti non ottiene alcun premio, quindi molti zeri e alcuni bravi studenti ottengono un bel po 'di premi. Ciò si confonde con le ipotesi del modello di Poisson ed è almeno altrettanto negativo per il modello normale.

Se si dispone di una discreta quantità di dati, un modello "gonfiato a zero" o "ostacolo" sarebbe naturale. Si tratta di due modelli legati insieme: uno per prevedere se lo studente ottiene dei premi e un altro per prevedere quanti ne ottiene se ne ottiene uno (di solito una qualche forma di modello di Poisson). Mi aspetterei che tutta l'azione fosse nel primo modello.

Esclusività del premio

Infine, un piccolo punto sui premi. Se i premi sono esclusivi, ovvero se uno studente ottiene il premio, nessun altro studente può ottenere il premio, quindi i risultati vengono accoppiati; un conteggio per studente a spinge verso il basso il possibile conteggio di ogni altro. Se vale la pena preoccuparsi dipende dalla struttura dei premi e dalle dimensioni della popolazione studentesca. Lo ignorerei al primo passaggio.

In conclusione, Poisson domina comodamente Normale tranne che per conteggi molto grandi, ma controlla le ipotesi del Poisson prima di appoggiarti su di esso per un'inferenza e, se necessario, preparati a passare a una classe di modello leggermente più complessa.

— conjugateprior
fonte

9

La regressione di Poisson sarebbe più adatta in questo caso perché la tua risposta è il conteggio di qualcosa.

$\lambda$

$\lambda$ $\lambda$

La regressione lineare normale assume errori normali attorno alla media e quindi li pesa allo stesso modo. Ciò dice che se uno studente ha un numero atteso di premi di 1, è altrettanto probabile che ricevano -2 premi rispetto a loro che ricevano 3 premi: questa è chiaramente una sciocchezza e ciò che è costruito per affrontare.

— Corone
fonte

8

$\ln(awards+0.5)$

Inoltre, poiché il numero atteso di premi diventa molto elevato, OLS dovrebbe funzionare meglio per i motivi indicati da @Corone. Nel lago Wobegon , OLS è la strada da percorrere.

Se il numero previsto è basso, con molti zeri, utilizzerei il Poisson con solidi errori standard sul modello binomiale negativo. NB La regressione fa forti ipotesi sulla varianza che appare nelle condizioni del primo ordine che producono i coefficienti. Se queste ipotesi non sono soddisfatte, i coefficienti stessi potrebbero essere contaminati. Questo non è il caso del Poisson.

— Dimitriy V. Masterov
fonte

4

$\lambda$ $\lambda$

set.seed(12345)
pois10 <- rpois(1000, 10)
plot(density(pois10))
library(moments)
skewness(pois10)

mostra un'asimmetria di 0,31, che è abbastanza vicino a 0.

Mi piacciono anche i punti di @conjugateprior. Nella mia esperienza, è raro che la regressione di Poisson si adatti bene; Di solito finisco per usare un binomio negativo o un modello gonfiato a zero.

— Peter Flom - Ripristina Monica
fonte