Contesto le affermazioni da diversi punti di vista:
i) Sebbene il collegamento canonico possa essere "problematico", non è immediatamente ovvio che qualcuno sarà interessato a quel collegamento - mentre, ad esempio, il collegamento di registro nel Poisson è spesso sia conveniente che naturale, e quindi le persone sono spesso interessato a quello. Anche così, nel caso di Poisson le persone osservano altre funzioni di collegamento.
Quindi non dobbiamo limitare la nostra considerazione al collegamento canonico.
Un "collegamento problematico" non è di per sé un argomento particolarmente eloquente contro la regressione binomiale negativa.
Il log-link, ad esempio, sembra essere una scelta abbastanza ragionevole in alcune applicazioni binomiali negative, ad esempio nei casi in cui i dati potrebbero essere condizionalmente Poisson ma c'è eterogeneità nella velocità di Poisson - il log link può essere quasi altrettanto interpretabile come nel caso di Poisson.
In confronto, uso Gamma GLMs abbastanza spesso, ma non ricordo (a parte gli esempi di libri di testo) di aver mai usato il suo link canonico - Uso il log-link quasi sempre, poiché è un link più naturale da usare per i tipi di problemi Tendo a lavorare con.
ii) "Sembra che poco sia stato fatto ... nelle applicazioni" potrebbe essere stato vero nel 1989, ma non credo che lo sia adesso. [Anche se lo fosse ora, questo non è un argomento secondo cui si tratta di un modello scadente, ma solo che non è stato ampiamente utilizzato - il che potrebbe accadere per qualsiasi motivo.]
La regressione binomiale negativa è diventata più ampiamente utilizzata poiché è più ampiamente disponibile e ora la vedo utilizzata in applicazioni molto più ampiamente. In R, ad esempio, utilizzo le funzioni MASS
che lo supportano (e il libro corrispondente, Venables e Ripley, Modern Applied Statistics con S , utilizza la regressione binomiale negativa in alcune applicazioni interessanti) - e ho usato alcune funzionalità in alcuni altri pacchetti anche prima che lo usassi in R.
Avrei usato maggiormente la regressione binomiale negativa, anche prima, se fosse stata prontamente disponibile per me; Mi aspetto che lo stesso sia vero per molte persone, quindi l'argomento che era poco usato sembra essere più un'opportunità.
Sebbene sia possibile evitare la regressione binomiale negativa (ad esempio utilizzando modelli di Poisson sovradispersi) o una serie di situazioni in cui non importa molto quello che fai , ci sono vari motivi per cui non è del tutto soddisfacente.
Ad esempio, quando il mio interesse è più per gli intervalli di previsione che per le stime dei coefficienti, il fatto che i coefficienti non cambino potrebbe non essere una ragione adeguata per evitare il binomio negativo.
Naturalmente ci sono ancora altre scelte che modellano la dispersione (come Conway-Maxwell-Poisson che è l'oggetto del documento che hai citato); mentre quelle sono certamente opzioni, a volte ci sono situazioni in cui sono abbastanza felice che il binomio negativo sia un 'adattamento' ragionevolmente buono come modello per il mio problema.
Tutti questi usi e raccomandazioni sono errati?
Davvero non la penso così! Se lo fossero, ormai dovrebbe essere diventato abbastanza chiaro. In effetti, se McCullagh e Nelder avessero continuato a sentirsi allo stesso modo, non avrebbero avuto alcuna mancanza di opportunità, né alcuna mancanza di forum in cui chiarire i problemi rimanenti. Nelder è morto (2010), ma a quanto pare McCullagh è ancora in circolazione .
Se quel breve passaggio in McCullagh e Nelder è tutto ciò che hanno, direi che è un argomento piuttosto debole.
Quali sono le conseguenze di questo collegamento problematico?
Penso che il problema sia principalmente una della funzione di varianza e la funzione di collegamento sia correlata piuttosto che non correlata (come nel caso di quasi tutte le altre principali famiglie GLM di uso popolare), il che rende l'interpretazione su scala del predittore lineare meno semplice (questo non vuol dire che è l'unico problema; penso che sia il problema principale per un professionista). Non è un vero affare.
A titolo di confronto, vedo i modelli Tweedie essere usati molto più ampiamente negli ultimi tempi e non vedo le persone preoccuparsi del fatto che appare sia nella funzione di varianza che nel collegamento canonico (né nella maggior parte dei casi nemmeno preoccuparsi molto sul collegamento canonico).p
Niente di tutto ciò è di togliere qualcosa ai modelli Conway-Maxwell-Poisson (argomento del documento Seller e Shmueli), che stanno anche diventando più ampiamente utilizzati - certamente non desidero prendere parte a un binomio negativo vs COM -Fiammifero sparatutto a cassone.
Semplicemente non lo vedo come l'uno o l'altro, non più di (ora parlando più ampiamente) prendo una posizione puramente bayesiana o puramente frequentista sui problemi statistici. Userò ciò che mi colpisce come la migliore scelta nelle particolari circostanze in cui mi trovo, e ogni scelta tende ad avere vantaggi e svantaggi.