Anche se questa è la mia domanda, pubblicherò anche i miei due centesimi come risposta, in modo da aggiungere al numero di prospettive su questa domanda. Il problema qui è se è ragionevole o meno adattare inizialmente una distribuzione di un parametro ai dati. Quando si utilizza una distribuzione a un parametro (come il Poisson GLM o un GLM binomiale con parametro di prova fisso), la varianza non è un parametro libero ed è invece vincolata ad essere una funzione della media. Ciò significa che si sconsiglia di adattare una distribuzione a un parametro ai dati in qualsiasi situazione in cui non si è assolutamente sicuri che la varianza segua la struttura di tale distribuzione.
Adattare le distribuzioni di un parametro ai dati è quasi sempre una cattiva idea: i dati sono spesso più disordinati di quanto indicano i modelli proposti, e anche quando ci sono ragioni teoriche per ritenere che un particolare modello a un parametro possa essere ottenuto, è spesso il caso che i dati in realtà provengono da una miscela di quella distribuzione a un parametro, con un intervallo di valori di parametro. Questo è spesso equivalente a un modello più ampio, come una distribuzione a due parametri che consente una maggiore libertà per la varianza. Come discusso di seguito, questo vale per il Poisson GLM nel caso dei dati di conteggio.
Come indicato nella domanda, nella maggior parte delle applicazioni delle statistiche, è pratica standard utilizzare moduli distributivi che almeno consentano ai primi due momenti di variare liberamente. Ciò garantisce che il modello adattato consenta ai dati di dettare la media e la varianza inferite, piuttosto che avere questi vincolati artificialmente dal modello. Avere questo secondo parametro perde solo un grado di libertà nel modello, il che è una perdita minuscola rispetto al vantaggio di consentire la stima della varianza dai dati. Ovviamente si può estendere questo ragionamento e aggiungere un terzo parametro per consentire l'adattamento dell'asimmetria, un quarto per consentire l'adattamento della curtosi, ecc.
Con alcune eccezioni estremamente minori, un GLM Poisson è un cattivo modello: nella mia esperienza, montare una distribuzione Poisson per contare i dati è quasi sempre una cattiva idea. Per i dati di conteggio è estremamente comune che la varianza nei dati sia "sovra-dispersa" rispetto alla distribuzione di Poisson. Anche in situazioni in cui la teoria punta a una distribuzione di Poisson, spesso il modello migliore è una miscela di distribuzioni di Poisson, in cui la varianza diventa un parametro libero. In effetti, nel caso dei dati di conteggio la distribuzione binomiale negativa è una miscela di Poisson con una distribuzione gamma per il parametro rate, quindi anche quando ci sono ragioni teoriche per pensare che i conteggi arrivino secondo il processo di una distribuzione di Poisson, spesso accade che ci sia "sovra-dispersione" e che la distribuzione binomiale negativa si adatti molto meglio.
La pratica di adattare un GLM di Poisson per contare i dati e quindi fare un test statistico per verificare la "sovra dispersione" è un anacronismo ed è quasi mai una buona pratica. In altre forme di analisi statistica, non iniziamo con una distribuzione a due parametri, scegliamo arbitrariamente una restrizione di varianza e quindi testiamo questa restrizione per cercare di eliminare un parametro dalla distribuzione. Facendo le cose in questo modo, creiamo effettivamente una procedura ibrida scomoda, che consiste in un test di ipotesi iniziale usato per la selezione del modello, e quindi nel modello reale (o Poisson o una distribuzione più ampia). È stato dimostrato in molti contesti che questo tipo di pratica di creazione di modelli ibridi da un test di selezione del modello iniziale porta a cattivi modelli globali.
Una situazione analoga, in cui è stato utilizzato un metodo ibrido simile, è nei test T con differenza media. In passato i corsi di statistica raccomandavano innanzitutto di usare il test di Levene (o anche solo alcune "regole empiriche" molto più scadenti) per verificare l'uguaglianza delle varianze tra due popolazioni, e quindi se i dati "avessero superato" questo test si sarebbe utilizzare il test T di Student che assume la stessa varianza e se i dati "falliscono" il test, si utilizzerà invece il test T di Welch. Questa è in realtà una procedura davvero brutta (vedi ad es. Qui e qui). È molto meglio usare quest'ultimo test, che non fa ipotesi sulla varianza, piuttosto che creare un test composto scomodo che collega un test di ipotesi preliminare e quindi lo utilizza per scegliere il modello.
Per i dati di conteggio, otterrai generalmente buoni risultati iniziali adattando un modello a due parametri come un modello binomiale negativo o quasi-Poisson. (Si noti che quest'ultimo non è una distribuzione reale, ma fornisce comunque un modello ragionevole a due parametri.) Se è necessaria un'ulteriore generalizzazione, di solito si tratta dell'aggiunta dell'inflazione zero, dove vi è un numero eccessivo di zero nei dati. Limitare a un Poisson GLM è una scelta di modello artificiale e insensata, e questo non è molto migliorato testando l'eccessiva dispersione.
Bene, ora ecco le eccezioni minori: le uniche vere eccezioni a quanto sopra sono due situazioni:
(1) Hai ragioni teoriche a priori estremamente forti per credere che le ipotesi per la distribuzione di un parametro siano soddisfatte, e parte dell'analisi è testare questo modello teorico rispetto ai dati; o
(2) Per qualche altra (strana) ragione, lo scopo della tua analisi è di condurre un test di ipotesi sulla varianza dei dati, e quindi in realtà vuoi limitare questa varianza a questa ipotetica restrizione, e quindi testare questa ipotesi.
Queste situazioni sono molto rare. Tendono a sorgere solo quando esiste una forte conoscenza teorica a priori sul meccanismo di generazione dei dati e lo scopo dell'analisi è testare questa teoria sottostante. Questo può essere il caso in una gamma estremamente limitata di applicazioni in cui i dati vengono generati in condizioni strettamente controllate (ad esempio, in fisica).