Cos'è la distribuzione quasi binomiale (nel contesto di GLM)?


30

Spero che qualcuno possa fornire una panoramica intuitiva di cosa sia la distribuzione quasibinomiale e di cosa faccia. Sono particolarmente interessato a questi punti:

  1. In che modo il quasibinomiale differisce dalla distribuzione binomiale.

  2. Quando la variabile di risposta è una proporzione (i valori di esempio includono 0,23, 0,11, 0,78, 0,98), un modello quasibinomiale verrà eseguito in R ma un modello binomiale no.

  3. Perché i modelli quasibinomiali dovrebbero essere usati quando una variabile di risposta TRUE / FALSE è sovradispersa.

Risposte:


20
  1. La differenza tra la distribuzione binomiale e quasi-binomiale può essere vista nelle loro funzioni di densità di probabilità (pdf), che caratterizzano queste distribuzioni.

    PDF binomiale:

    P(X=k)=(nk)pk(1p)nk

    PDF quasi binomiale:

    P(X=k)=(nk)p(p+kϕ)k1(1pkϕ)nk

    La distribuzione quasi binomiale, sebbene simile alla distribuzione binomiale, ha un parametro aggiuntivo ϕ (limitato a |ϕ|min{p/n,(1p)/n} ) che tenta di descrivere ulteriore varianza nei dati che non può essere spiegata da una sola distribuzione binomiale.

    (Nota che la media della distribuzione quasi binomiale è Piuttosto che stesso.)pi=0nn!ϕi(nk)!p

  2. Non sono sicuro su questo, forse la funzione glm in R aggiunge pesi in modalità quasibinomiale per tener conto di questo?

  3. Lo scopo del parametro extra è di stimare una varianza aggiuntiva nei dati. Ogni modello lineare generalizzato (GLM) fa un'ipotesi distributiva per il risultato / risposta e massimizza la probabilità dei dati basati su questa distribuzione. È una scelta fatta dall'analista e se ritieni di dover tenere conto di una maggiore varianza nei tuoi dati, puoi scegliere la distribuzione quasi binomiale per modellare la risposta per il tuo glm. Un ottimo modo per verificare se è necessario adattare un modello quasi binomiale anziché un binomio consiste nell'adattare un modello quasi binomiale e verificare se il parametro è 0.ϕϕ


2
Eccellente Alejandro, ora come posso verificare se il parametro ϕ è 0?
Juanchi,

2
Si noti che in Rcon glm.fit, binomiale quasibinomialsono esattamente gli stessi, tranne per il fatto che quasibinomial(1) rimuove il controllo intero e (2) restituisce un AIC di NA. Vedi questa risposta per maggiori dettagli.
miguelmorin,

-1 Questo tipo di distribuzione "quasi binomiale" sembra essere completamente estranea alle probabilità quasi binomiali nel contesto di glms, quindi è difficile capire perché abbia ottenuto così tanti voti.
Jarle Tufto,

14

Il quasi binomio non è necessariamente una distribuzione particolare; descrive un modello per la relazione tra varianza e media nei modelli lineari generalizzati che è volte la varianza per un binomio in termini di media per un binomio.ϕ

Esiste una distribuzione che si adatta a tale specifica (quella ovvia - un binomio in scala), ma questo non è necessariamente lo scopo quando viene montato un modello quasi binomiale; se ti stai adattando a dati che sono ancora 0-1 non possono essere ridimensionati binomiali.

Quindi il modello di varianza quasi binomiale, tramite il parametro , può gestire meglio i dati per i quali la varianza è maggiore (o, forse, più piccola) di quella che otterresti con i dati binomiali, pur non essendo necessariamente una vera distribuzione .ϕ

Quando la variabile di risposta è una proporzione (i valori di esempio includono 0,23, 0,11, 078, 0,98), un modello quasibinomiale verrà eseguito in R ma un modello binomiale non verrà

A mio avviso, un modello binomiale può essere eseguito in R con proporzioni *, ma è necessario impostarlo correttamente.

* Esistono tre modi separati per fornire dati binomiali a R di cui sono a conoscenza. Sono abbastanza sicuro che sia uno.


In che modo ciò è legato alla stima della quasilikelihood?
tim.farkas

2
+1 (ma mi piacerebbe vedere una risposta più completa!). I tre modi per impostare il GLM binomiale con proporzioni sono probabilmente questi: stats.stackexchange.com/a/26779/28666 ? Un collegamento potrebbe essere utile. Inoltre, in che modo ciò che hai detto sul "quasibinomial" che in realtà non è una distribuzione si riferisce alla seconda risposta in questo thread?
ameba dice Reinstate Monica il

1
@amoeba puoi scrivere una distribuzione per questo, come è stato affermato nella mia risposta (un binomio in scala) ma che non può essere una distribuzione per i dati di conteggio (quasibinomial non è su tutti i numeri interi a meno che il parametro dispersion sia 1) né per i dati continui ( è discreto!). Le persone generalmente lo usano per i dati di conteggio a causa della sua struttura di varianza (ma nel qual caso non esiste tale distribuzione nella famiglia esponenziale)
Glen_b -Reinstate Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.