Quali sono i presupposti della regressione binomiale negativa?

30

Sto lavorando con un set di dati di grandi dimensioni (riservato, quindi non posso condividere troppo) e sono giunto alla conclusione che sarebbe necessaria una regressione binomiale negativa. Non ho mai fatto una regressione glm prima e non riesco a trovare informazioni chiare su quali siano le ipotesi. Sono gli stessi per MLR?

Posso trasformare le variabili allo stesso modo (ho già scoperto che trasformare la variabile dipendente è una cattiva chiamata poiché deve essere un numero naturale)? Ho già determinato che la distribuzione binomiale negativa aiuterebbe con l'eccessiva dispersione nei miei dati (la varianza è intorno al 2000, la media è 48).

Grazie per l'aiuto!!

— Carly
fonte

42

Sto lavorando con un set di dati di grandi dimensioni (riservato, quindi non posso condividere troppo),

Potrebbe essere possibile creare un piccolo set di dati che presenta alcune delle caratteristiche generali dei dati reali senza i nomi delle variabili né i valori effettivi.

e giunse alla conclusione che sarebbe necessaria una regressione binomiale negativa. Non ho mai fatto una regressione glm prima e non riesco a trovare informazioni chiare su quali siano le ipotesi. Sono gli stessi per MLR?

Chiaramente no! Sai già che stai assumendo che la risposta sia binomiale condizionatamente negativa, non condizionatamente normale. ( Alcuni presupposti sono condivisi. Indipendenza per esempio.)

Vorrei parlare prima dei GLM più in generale.

I GLM includono regressione multipla ma generalizzano in diversi modi:

1) la distribuzione condizionale della risposta (variabile dipendente) è dal famiglia esponenziale , che include la distribuzione di Poisson, binomiale, gamma, normale e numerose altre.

2) la risposta media è correlata ai predittori (variabili indipendenti) attraverso una funzione di collegamento . Ogni famiglia di distribuzioni ha una funzione di collegamento canonico associata - ad esempio nel caso di Poisson, il collegamento canonico è il registro . I collegamenti canonici sono quasi sempre quelli predefiniti, ma nella maggior parte dei software in genere sono disponibili diverse opzioni all'interno di ciascuna scelta di distribuzione. Per il binomio il collegamento canonico è il logit (il predittore lineare è il modellazione $\log(\frac{p}{1-p})$ , le probabilità del log di un successo, o un "1") e per il Gamma il collegamento canonico è l'inverso - ma in entrambi i casi vengono spesso utilizzate altre funzioni di collegamento.

Quindi se la tua risposta fosse e i tuoi predittori fossero e , con una regressione di Poisson con il collegamento del log che potresti avere per la tua descrizione di come la media di è correlata alle : $Y$ $X_1$ $X_2$ $Y$ $X$

$\text{E}(Y_i) = \mu_i$

$\log\mu_i= \eta_i$ $\eta$ $\log$ $g$

$\eta_i = \beta_0 + \beta_1 x_{1i} + \beta_2 x_{2i}$

3) la varianza della risposta non è costante, ma opera attraverso una funzione di varianza (una funzione della media, forse volte un parametro di ridimensionamento). Ad esempio, la varianza di un Poisson è uguale alla media, mentre per un gamma è proporzionale al quadrato della media. (Le quasi-distribuzioni consentono un certo grado di disaccoppiamento della funzione di varianza dalla distribuzione presunta)

-

Quindi quali ipotesi sono in comune con ciò che ricordi dell'MLR?

L'indipendenza è ancora lì.
L'omoschedasticità non è più assunta; la varianza è esplicitamente una funzione della media e quindi in generale varia con i predittori (quindi mentre il modello è generalmente eteroschedastico, l'eteroschedasticità assume una forma specifica).
$X\beta$
La distribuzione della risposta è sostanzialmente più generale

$t$

I confronti tra modelli nidificati (tramite 'anova-table' come le configurazioni) sono un po 'diversi, ma simili (comportano test chi-quadrati asintotici). Se sei a tuo agio con AIC e BIC, questi possono essere calcolati.

Generalmente vengono utilizzati tipi di display diagnostici simili, ma può essere più difficile da interpretare.

Gran parte della tua intuizione di regressione lineare multipla continuerà se tieni a mente le differenze.

$Y$ $x$

$\text{E}(Y) = \exp(\eta) = \exp(X\beta) = \exp(\beta_0+\beta_1 x)$

$\text{Var}(Y) = \sigma^2$

$Y$ $x$

Posso trasformare le variabili allo stesso modo (ho già scoperto che trasformare la variabile dipendente è una cattiva chiamata poiché deve essere un numero naturale)?

Tu (di solito) non vuoi trasformare la risposta (DV). A volte potresti voler trasformare predittori (IV) per ottenere la linearità del predittore lineare.

Ho già determinato che la distribuzione binomiale negativa aiuterebbe con l'eccessiva dispersione nei miei dati (la varianza è intorno al 2000, la media è 48).

Sì, può gestire la sovradispersione. Ma fai attenzione a non confondere la dispersione condizionale con la dispersione incondizionata .

Un altro approccio comune - se un po 'più fastidioso e un po' meno soddisfacente per la mia mente - è la regressione quasi-Poisson (regressione troppo diffusa di Poisson).

Con il binomio negativo, è nella famiglia esponenziale se si specifica uno dei suoi parametri particolari (il modo in cui di solito è riparametrizzato almeno per GLMS). Alcuni pacchetti si adatteranno se si specifica il parametro, altri avvolgeranno la stima ML di quel parametro (diciamo tramite la probabilità del profilo) attorno a una routine GLM, automatizzando il processo. Alcuni ti limiteranno a un set più piccolo di distribuzioni; non dici quale software potresti usare, quindi è difficile dire molto di più lì.

Penso che di solito il log-link tenda ad essere usato con regressione binomiale negativa.

Esistono numerosi documenti a livello introduttivo (facilmente reperibili tramite google) che conducono ad alcuni GLM di Poisson di base e quindi a analisi GLM binomiali negative dei dati, ma potresti preferire guardare un libro sui GLM e magari fare prima una piccola regressione di Poisson solo per abituarmi.

— Glen_b - Ripristina Monica
fonte

1

+1 Sono d'accordo con COOLSerdash. Molte buone informazioni qui! Oltre alla ricerca consigliata su Google, consiglierei specificamente un libro di testo chiamato Econometrics by Example di Gujarati. Il capitolo 12 tratta il modello di regressione di Poisson e il modello di regressione binomiale negativa. Come suggerisce il titolo del libro, ci sono esempi. I dati utilizzati nel libro sono disponibili sul sito Web del compagno dei libri e quindi è una sintesi del capitolo 12 stesso. Consiglio all'OP di verificarlo.

— Graeme Walsh,

Sono in ritardo alla festa ... ma questa risposta mi ha aiutato a capire i modelli lineari generalizzati meglio di un'intera pila di libri in biblioteca.

— Haff

0

Alcuni riferimenti che ho trovato utili per analizzare i dati con la distribuzione binomiale negativa in modo specifico (compresi i presupposti di elenco) e GLM / GLMM generalmente sono:

Bates, DM, B. Machler, B. Bolker e S. Walker. 2015. Montaggio di modelli lineari a effetti misti usando lme4. J. Stat. Software 67: 1-48.

Bolker, BM, ME Brooks, CJ Clark, SW Geange, JR Poulsen, MHH Stevens e J. White. Modelli misti lineari generalizzati: una guida pratica per l'ecologia e l'evoluzione. Tendenze in ecologia ed evoluzione 127-135.

Zeileis A., C. Keleiber C e S. Jackman 2008. Modelli di regressione per i dati di conteggio in RJ Stat. Software. 27: 1-25

Zuur AF, EN Iene, N. Walker, AA Saveliev e GM Smith. 2009. Modelli di effetti misti ed estensioni in ecologia con R. Springer, NY, USA.

— Todd Johnson
fonte