Domanda di regressione binomiale negativa: è un modello scadente?

Sto leggendo un articolo molto interessante di Seller e Shmueli sui modelli di regressione per i dati di conteggio. Quasi all'inizio (p. 944) citano McCullaugh e Nelder (1989) affermando che la regressione binomiale negativa è impopolare e ha un problematico collegamento canonico. Ho trovato il passaggio indicato e dice (p. 374 di M e N)

"Sembra che sia stato fatto uno scarso uso della distribuzione binomiale negativa nelle applicazioni; in particolare, l'uso del collegamento canonico è problematico perché rende il predittore lineare una funzione di un parametro della funzione varianza".

Nella pagina precedente danno quella funzione di collegamento come

η = \log (\frac{α}{1 + α}) = \log (\frac{μ}{μ + k})

$\eta = \log\left(\frac{\alpha}{1 + \alpha} \right) = \log\left( \frac{\mu}{\mu + k}\right)$

e funzione di varianza

V = μ + \frac{μ^{2}}{k} .

$V = \mu + \frac{\mu^2}{k}.$

La distribuzione è data come

P r (Y = y; α, k) = \frac{(y + k - 1)!}{y! (k - 1)!} \frac{α^{y}}{(1 + α)^{y = k}}

$Pr(Y = y; \alpha,k) = \frac{(y+k-1)!}{y!(k-1)!}\frac{\alpha^y}{(1+\alpha)^{y=k}}$

Ho trovato che la regressione NB è ampiamente utilizzata (e raccomandata in diversi libri). Tutti questi usi e raccomandazioni sono errati?

Quali sono le conseguenze di questo collegamento problematico?

regression modeling negative-binomial

— Peter Flom - Ripristina Monica
fonte

Probabilmente deve fare almeno in parte il fatto che la citazione sia attribuita all'anno 1989. Sono disposto a scommettere che gli usi più attuali dell'NB sono più recenti. Il modello NB è molto utile di solito quando si ha a che fare con problemi di eccessiva dispersione nel solito caso di probabilità binomiale (cioè regressione logistica).

Sono annebbiato dai dettagli (e lungi dall'essere anche un novizio quando si tratta di NegBin), ma ricordo Joseph Hilbe che ne stava discutendo nel suo libro Negative Binomial Regression (2a edizione). Commenta a p.9 che è un'espressione naturale della vista della miscela Poisson-gamma del NegBin. Dopo il loro libro del 1989 Nelder sviluppò la macro kk per GenStat, in cui favoriva una relazione diretta tra e con la varianza e che questa parametrizzazione diretta si è dimostrata molto popolare recentemente.

V

$V$

α

$\alpha$

μ^{2}

$\mu^2$

V = μ + α μ^{2}

$V = \mu + \alpha \mu^2$

— Ripristina Monica - G. Simpson il

Prenderei quei commenti con un granello di sale. Ri MN: Avevano una definizione molto rigorosa di ciò che è un GLM (per buone ragioni penso). I modelli Negbin con parametri di forma sconosciuti non aderiscono alla definizione molto rigorosa di GLM di McCullagh, Nelder, Pregibon e così via. Quindi tecnicamente non è un GLM in quasi tutti i casi d'uso. Interpretato come una classe di modello leggermente diversa e stimato con la massima probabilità, nessun problema. Re S&S aveva bisogno di un caso per motivare il Poisson COM, quindi la citazione di M&N è stata utile.

— Momo,

Non vedo perché le presunte cattive proprietà del legame canonico rendano il modello di negbin complessivamente indesiderabile. Scegli la tua funzione di collegamento sulla base dei dati e del problema che stai cercando di risolvere, non facendo riferimento alla teoria matematica. In effetti dubito che qualcuno stia usando il collegamento canonico. È una storia simile ai gamma GLM; il collegamento canonico è l'inverso, ma scommetto che molte più persone usano un collegamento di registro a causa della facilità di interpretazione e dell'applicazione naturale a molte situazioni.

— Hong Ooi,

Per quanto ne so, non c'è quasi mai motivo di usare il modello binomiale negativo. Anche se i tuoi dati sono stati veramente generati da un modello binomiale negativo, la regressione di Poisson produce stimatori coerenti degli effetti delle variabili indipendenti sulla risposta media --- e questo è praticamente sempre ciò che il ricercatore vuole stimare. I soliti errori standard sono errati se l'ipotesi di Poisson è sbagliata, ma il bootstrap lo risolve. Ogni volta che , puoi costantemente stimare usando Poisson.

E {Y | X} = e x p (X β)

$E\{Y|X\}=exp(X\beta)$

β

$\beta$

— Bill

Contesto le affermazioni da diversi punti di vista:

i) Sebbene il collegamento canonico possa essere "problematico", non è immediatamente ovvio che qualcuno sarà interessato a quel collegamento - mentre, ad esempio, il collegamento di registro nel Poisson è spesso sia conveniente che naturale, e quindi le persone sono spesso interessato a quello. Anche così, nel caso di Poisson le persone osservano altre funzioni di collegamento.

Quindi non dobbiamo limitare la nostra considerazione al collegamento canonico.

Un "collegamento problematico" non è di per sé un argomento particolarmente eloquente contro la regressione binomiale negativa.

Il log-link, ad esempio, sembra essere una scelta abbastanza ragionevole in alcune applicazioni binomiali negative, ad esempio nei casi in cui i dati potrebbero essere condizionalmente Poisson ma c'è eterogeneità nella velocità di Poisson - il log link può essere quasi altrettanto interpretabile come nel caso di Poisson.

In confronto, uso Gamma GLMs abbastanza spesso, ma non ricordo (a parte gli esempi di libri di testo) di aver mai usato il suo link canonico - Uso il log-link quasi sempre, poiché è un link più naturale da usare per i tipi di problemi Tendo a lavorare con.

ii) "Sembra che poco sia stato fatto ... nelle applicazioni" potrebbe essere stato vero nel 1989, ma non credo che lo sia adesso. [Anche se lo fosse ora, questo non è un argomento secondo cui si tratta di un modello scadente, ma solo che non è stato ampiamente utilizzato - il che potrebbe accadere per qualsiasi motivo.]

La regressione binomiale negativa è diventata più ampiamente utilizzata poiché è più ampiamente disponibile e ora la vedo utilizzata in applicazioni molto più ampiamente. In R, ad esempio, utilizzo le funzioni MASSche lo supportano (e il libro corrispondente, Venables e Ripley, Modern Applied Statistics con S , utilizza la regressione binomiale negativa in alcune applicazioni interessanti) - e ho usato alcune funzionalità in alcuni altri pacchetti anche prima che lo usassi in R.

Avrei usato maggiormente la regressione binomiale negativa, anche prima, se fosse stata prontamente disponibile per me; Mi aspetto che lo stesso sia vero per molte persone, quindi l'argomento che era poco usato sembra essere più un'opportunità.

Sebbene sia possibile evitare la regressione binomiale negativa (ad esempio utilizzando modelli di Poisson sovradispersi) o una serie di situazioni in cui non importa molto quello che fai , ci sono vari motivi per cui non è del tutto soddisfacente.

Ad esempio, quando il mio interesse è più per gli intervalli di previsione che per le stime dei coefficienti, il fatto che i coefficienti non cambino potrebbe non essere una ragione adeguata per evitare il binomio negativo.

Naturalmente ci sono ancora altre scelte che modellano la dispersione (come Conway-Maxwell-Poisson che è l'oggetto del documento che hai citato); mentre quelle sono certamente opzioni, a volte ci sono situazioni in cui sono abbastanza felice che il binomio negativo sia un 'adattamento' ragionevolmente buono come modello per il mio problema.

Tutti questi usi e raccomandazioni sono errati?

Davvero non la penso così! Se lo fossero, ormai dovrebbe essere diventato abbastanza chiaro. In effetti, se McCullagh e Nelder avessero continuato a sentirsi allo stesso modo, non avrebbero avuto alcuna mancanza di opportunità, né alcuna mancanza di forum in cui chiarire i problemi rimanenti. Nelder è morto (2010), ma a quanto pare McCullagh è ancora in circolazione .

Se quel breve passaggio in McCullagh e Nelder è tutto ciò che hanno, direi che è un argomento piuttosto debole.

Quali sono le conseguenze di questo collegamento problematico?

Penso che il problema sia principalmente una della funzione di varianza e la funzione di collegamento sia correlata piuttosto che non correlata (come nel caso di quasi tutte le altre principali famiglie GLM di uso popolare), il che rende l'interpretazione su scala del predittore lineare meno semplice (questo non vuol dire che è l'unico problema; penso che sia il problema principale per un professionista). Non è un vero affare.

A titolo di confronto, vedo i modelli Tweedie essere usati molto più ampiamente negli ultimi tempi e non vedo le persone preoccuparsi del fatto che appare sia nella funzione di varianza che nel collegamento canonico (né nella maggior parte dei casi nemmeno preoccuparsi molto sul collegamento canonico). $p$

Niente di tutto ciò è di togliere qualcosa ai modelli Conway-Maxwell-Poisson (argomento del documento Seller e Shmueli), che stanno anche diventando più ampiamente utilizzati - certamente non desidero prendere parte a un binomio negativo vs COM -Fiammifero sparatutto a cassone.

Semplicemente non lo vedo come l'uno o l'altro, non più di (ora parlando più ampiamente) prendo una posizione puramente bayesiana o puramente frequentista sui problemi statistici. Userò ciò che mi colpisce come la migliore scelta nelle particolari circostanze in cui mi trovo, e ogni scelta tende ad avere vantaggi e svantaggi.

— Glen_b - Ripristina Monica
fonte