I test di dispersione eccessiva nei GLM sono effettivamente * utili *?


15

Il fenomeno della "sovra-dispersione" in un GLM sorge ogni volta che utilizziamo un modello che limita la varianza della variabile di risposta e i dati mostrano una varianza maggiore di quella consentita dalla restrizione del modello. Ciò si verifica comunemente quando si modellano i dati di conteggio utilizzando un Poisson GLM e possono essere diagnosticati mediante test noti. Se i test mostrano che ci sono prove statisticamente significative di sovra-dispersione, di solito generalizziamo il modello usando una famiglia più ampia di distribuzioni che liberano il parametro varianza dalla restrizione che si verifica sotto il modello originale. Nel caso di un GLM di Poisson è comune generalizzare a un GLM binomiale negativo o quasi-Poisson.

Questa situazione è incinta di un'ovvia obiezione. Perché iniziare con un Poisson GLM? Si può iniziare direttamente con le forme distributive più ampie, che hanno un parametro di varianza (relativamente) libero e consentire al parametro di varianza di adattarsi ai dati, ignorando completamente i test di sovra dispersione. In altre situazioni quando eseguiamo l'analisi dei dati utilizziamo quasi sempre moduli distributivi che consentono la libertà di almeno i primi due momenti, quindi perché fare un'eccezione qui?

La mia domanda: c'è qualche buona ragione per iniziare con una distribuzione che corregge la varianza (ad esempio, la distribuzione di Poisson) e quindi eseguire un test di dispersione eccessiva? In che modo questa procedura si confronta con il saltare completamente questo esercizio e passare direttamente ai modelli più generali (ad esempio, binomio negativo, quasi-Poisson, ecc.)? In altre parole, perché non usare sempre una distribuzione con un parametro di varianza libera?


1
la mia ipotesi è che, se il sottostante è veramente poisson, il tuo risultato glm non mostrerà quelle proprietà ben note come le stime che sono anche efficienti nel senso che la varianza delle stime è maggiore di quanto deve essere, se il corretto il modello era stato usato. Le stime probabilmente non sono neppure imparziali o MLE. Ma questa è solo la mia intuizione e potrei sbagliarmi. Sarei curioso di sapere quale sia una buona risposta.
mlofton,

3
Nella mia esperienza, testare l'eccessiva dispersione è (paradossalmente) principalmente utile quando si sa (da una conoscenza del processo di generazione dei dati) che l'eccessiva dispersione non può essere presente. In questo contesto, il test per l'eccessiva dispersione indica se il modello lineare sta rilevando tutto il segnale nei dati. In caso contrario, è necessario considerare l'aggiunta di più covariate al modello. Se lo è, allora più covariate non possono aiutare.
Gordon Smyth,

@GordonSmyth: penso che sia una buona risposta. Se non vuoi trasformarlo in una sua risposta, la piegherò nella mia.
Cliff AB,

1
@GordonSmyth che arriva a una cosa che mi ha sempre infastidito nell'analisi della devianza come bontà del test di adattamento: le covariate mancanti sono confuse con un'eccessiva dispersione. Suggerisce alcuni problemi su come il materiale viene spesso insegnato. Insegno a una lezione in categorica e i libri di testo non sottolineano molto questo punto.
ragazzo,

1
@guy Sì, è vero, e la gente tende a supporre che la devianza residua sia sempre distribuita in chisquare, cosa che spesso non lo è. Abbiamo cercato di fare un lavoro migliore di questi punti nel nostro recente libro di testo doi.org/10.1007/978-1-4419-0118-7, ma è difficile coprire tutto entro limiti di spazio.
Gordon Smyth,

Risposte:


14

In linea di principio, concordo sul fatto che il 99% delle volte è meglio usare solo il modello più flessibile. Detto questo, qui ci sono due e mezzo argomenti per cui potresti non farlo.

(1) Meno flessibile significa stime più efficienti. Dato che i parametri di varianza tendono ad essere meno stabili dei parametri medi, l'assunzione di una relazione fissa di varianza media può stabilizzare maggiormente gli errori standard.

(2) Verifica del modello. Ho lavorato con fisici che credono che varie distribuzioni di Poisson possano essere descritte a causa della fisica teorica. Se rifiutiamo l'ipotesi che significa = varianza, abbiamo prove contro l'ipotesi di distribuzione di Poisson. Come sottolineato in un commento di @GordonSmyth, se hai motivo di credere che una determinata misurazione debba seguire una distribuzione di Poisson, se hai prove di un'eccessiva dispersione, hai prove che ti mancano fattori importanti.

Vun'r[y]=αE[y]α1


Su 2.5: Naturalmente c'è binomio negativo e GLMM con effetti casuali che non hanno questa limitazione.
Björn,

@Björn: ecco perché è solo mezzo argomento; si applica solo ai metodi Quasi-Probabilità. Per quanto ne so, non ci sono metodi basati sulla probabilità di sotto dispersione, anche se questo può essere analizzato con un modello Quasi-Probabilità.
Cliff AB,

1
Anche su 2.5: la mia comprensione è che non esiste una famiglia di dispersione esponenziale che soddisfi la relazione desiderata. Significato, il punteggio quasi non corrisponde a un punteggio reale. Ciò non significa che non ci sono non le famiglie di distribuzioni per i dati di conteggio che soddisfano la relazione desiderata; ci dovrebbero essere molte di queste famiglie.
ragazzo,

2
@CliffAB per i dati di conteggio dispersi c'è il modello Conway-Maxwell-Poisson: en.m.wikipedia.org/wiki/… che è implementato in un paio di pacchetti R.
Dimitris Rizopoulos,

Se il modello verrà utilizzato per la previsione, un altro motivo per preferire il modello più semplice è che, se tutto il resto è uguale, il modello più semplice avrà migliori qualità predittive. Sto pensando ad AIC, BIC e PAC in generale.
Meh

11

Anche se questa è la mia domanda, pubblicherò anche i miei due centesimi come risposta, in modo da aggiungere al numero di prospettive su questa domanda. Il problema qui è se è ragionevole o meno adattare inizialmente una distribuzione di un parametro ai dati. Quando si utilizza una distribuzione a un parametro (come il Poisson GLM o un GLM binomiale con parametro di prova fisso), la varianza non è un parametro libero ed è invece vincolata ad essere una funzione della media. Ciò significa che si sconsiglia di adattare una distribuzione a un parametro ai dati in qualsiasi situazione in cui non si è assolutamente sicuri che la varianza segua la struttura di tale distribuzione.


Adattare le distribuzioni di un parametro ai dati è quasi sempre una cattiva idea: i dati sono spesso più disordinati di quanto indicano i modelli proposti, e anche quando ci sono ragioni teoriche per ritenere che un particolare modello a un parametro possa essere ottenuto, è spesso il caso che i dati in realtà provengono da una miscela di quella distribuzione a un parametro, con un intervallo di valori di parametro. Questo è spesso equivalente a un modello più ampio, come una distribuzione a due parametri che consente una maggiore libertà per la varianza. Come discusso di seguito, questo vale per il Poisson GLM nel caso dei dati di conteggio.

Come indicato nella domanda, nella maggior parte delle applicazioni delle statistiche, è pratica standard utilizzare moduli distributivi che almeno consentano ai primi due momenti di variare liberamente. Ciò garantisce che il modello adattato consenta ai dati di dettare la media e la varianza inferite, piuttosto che avere questi vincolati artificialmente dal modello. Avere questo secondo parametro perde solo un grado di libertà nel modello, il che è una perdita minuscola rispetto al vantaggio di consentire la stima della varianza dai dati. Ovviamente si può estendere questo ragionamento e aggiungere un terzo parametro per consentire l'adattamento dell'asimmetria, un quarto per consentire l'adattamento della curtosi, ecc.


Con alcune eccezioni estremamente minori, un GLM Poisson è un cattivo modello: nella mia esperienza, montare una distribuzione Poisson per contare i dati è quasi sempre una cattiva idea. Per i dati di conteggio è estremamente comune che la varianza nei dati sia "sovra-dispersa" rispetto alla distribuzione di Poisson. Anche in situazioni in cui la teoria punta a una distribuzione di Poisson, spesso il modello migliore è una miscela di distribuzioni di Poisson, in cui la varianza diventa un parametro libero. In effetti, nel caso dei dati di conteggio la distribuzione binomiale negativa è una miscela di Poisson con una distribuzione gamma per il parametro rate, quindi anche quando ci sono ragioni teoriche per pensare che i conteggi arrivino secondo il processo di una distribuzione di Poisson, spesso accade che ci sia "sovra-dispersione" e che la distribuzione binomiale negativa si adatti molto meglio.

La pratica di adattare un GLM di Poisson per contare i dati e quindi fare un test statistico per verificare la "sovra dispersione" è un anacronismo ed è quasi mai una buona pratica. In altre forme di analisi statistica, non iniziamo con una distribuzione a due parametri, scegliamo arbitrariamente una restrizione di varianza e quindi testiamo questa restrizione per cercare di eliminare un parametro dalla distribuzione. Facendo le cose in questo modo, creiamo effettivamente una procedura ibrida scomoda, che consiste in un test di ipotesi iniziale usato per la selezione del modello, e quindi nel modello reale (o Poisson o una distribuzione più ampia). È stato dimostrato in molti contesti che questo tipo di pratica di creazione di modelli ibridi da un test di selezione del modello iniziale porta a cattivi modelli globali.

Una situazione analoga, in cui è stato utilizzato un metodo ibrido simile, è nei test T con differenza media. In passato i corsi di statistica raccomandavano innanzitutto di usare il test di Levene (o anche solo alcune "regole empiriche" molto più scadenti) per verificare l'uguaglianza delle varianze tra due popolazioni, e quindi se i dati "avessero superato" questo test si sarebbe utilizzare il test T di Student che assume la stessa varianza e se i dati "falliscono" il test, si utilizzerà invece il test T di Welch. Questa è in realtà una procedura davvero brutta (vedi ad es. Qui e qui). È molto meglio usare quest'ultimo test, che non fa ipotesi sulla varianza, piuttosto che creare un test composto scomodo che collega un test di ipotesi preliminare e quindi lo utilizza per scegliere il modello.

Per i dati di conteggio, otterrai generalmente buoni risultati iniziali adattando un modello a due parametri come un modello binomiale negativo o quasi-Poisson. (Si noti che quest'ultimo non è una distribuzione reale, ma fornisce comunque un modello ragionevole a due parametri.) Se è necessaria un'ulteriore generalizzazione, di solito si tratta dell'aggiunta dell'inflazione zero, dove vi è un numero eccessivo di zero nei dati. Limitare a un Poisson GLM è una scelta di modello artificiale e insensata, e questo non è molto migliorato testando l'eccessiva dispersione.


Bene, ora ecco le eccezioni minori: le uniche vere eccezioni a quanto sopra sono due situazioni:

(1) Hai ragioni teoriche a priori estremamente forti per credere che le ipotesi per la distribuzione di un parametro siano soddisfatte, e parte dell'analisi è testare questo modello teorico rispetto ai dati; o

(2) Per qualche altra (strana) ragione, lo scopo della tua analisi è di condurre un test di ipotesi sulla varianza dei dati, e quindi in realtà vuoi limitare questa varianza a questa ipotetica restrizione, e quindi testare questa ipotesi.

Queste situazioni sono molto rare. Tendono a sorgere solo quando esiste una forte conoscenza teorica a priori sul meccanismo di generazione dei dati e lo scopo dell'analisi è testare questa teoria sottostante. Questo può essere il caso in una gamma estremamente limitata di applicazioni in cui i dati vengono generati in condizioni strettamente controllate (ad esempio, in fisica).

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.