Zero distribuzioni gonfiate, che cosa sono veramente?


15

Sto lottando per capire distribuzioni gonfiate zero. Quali sono? Qual e il punto?

Se avessi dati con molti zeri, allora potrei adattarmi a una regressione logistica prima calcolare la probabilità di zeri, quindi potrei rimuovere tutti gli zeri e quindi adattare una regressione regolare usando la mia scelta di distribuzione (ad es. Poisson).

Allora qualcuno mi ha detto "ehi, usa una distribuzione zero inflazionata", ma guardando in alto, sembra che non faccia nulla di diverso da quello che ho suggerito sopra? Ha un parametro regolare e quindi un altro parametro per modellare la probabilità di zero? No, fa entrambe le cose allo stesso tempo, no?μp


3
Perché rimuovi tutti gli zeri? puoi farlo insieme, prima calcola la probabilità di 0 e 1 e lo usi come peso per la tua distribuzione di Poisson che è il modello zero inflazionato (distribuzione). Leggi questo, è abbastanza chiaro en.wikipedia.org/wiki/Zero-inflated_model
Deep North

Risposte:


13

adattarsi a una regressione logistica prima calcolare la probabilità di zeri, quindi ho potuto rimuovere tutti gli zeri e quindi adattare una regressione regolare usando la mia scelta di distribuzione (ad es. poisson)

Hai assolutamente ragione. Questo è un modo per adattarsi a un modello a zero zero (o come sottolinea Achim Zeileis nei commenti, questo è rigorosamente un "modello di ostacolo", che si potrebbe vedere come un caso speciale di un modello a zero zero).

La differenza tra la procedura descritta e un modello "all-in-one" a zero inflazione è la propagazione degli errori. Come tutte le altre procedure in due fasi nelle statistiche, l'incertezza complessiva delle previsioni nel passaggio 2 non terrà conto dell'incertezza sul fatto che la previsione debba essere 0 o meno.

A volte questo è un male necessario. Fortunatamente, in questo caso non è necessario. In R, puoi usare pscl::hurdle()o fitdistrplus::fitdist().


puoi spiegare questo "l'incertezza complessiva delle tue previsioni nel passaggio 2 non terrà conto dell'incertezza sul fatto che la previsione debba essere 0 o no"? Quando esegui uno Zip Poisson, moltiplichi la probabilità della prima parte per la funzione di probabilità del modello di Poisson, quindi il passaggio 2 terrà conto dell'incertezza dello 0 o 1.
Deep North,

1
P(Y=1|X=X)=0.510.51

3
@ssdecontrol Di solito questo non è chiamato un modello a gonfiaggio zero ma un modello di ostacolo (ad es pscl::hurdle().). E per ottenere un adattamento adeguato, la distribuzione impiegata per i dati senza zeri dovrebbe essere troncata da zero (o non portare ad alcuno zero in primo luogo). Vedi la mia risposta per maggiori dettagli.
Achim Zeileis,

9

L'idea di base che descrivi è un approccio valido ed è spesso chiamato un modello di ostacolo (o modello in due parti) piuttosto che un modello a gonfiaggio zero .

Tuttavia, è cruciale che il modello per gli account di dati diversi da zero richieda la rimozione degli zeri. Se si adatta un modello di Poisson ai dati senza zeri, ciò produrrà quasi sicuramente uno scarso adattamento poiché la distribuzione di Poisson ha sempre una probabilità positiva per zero. L'alternativa naturale è quella di utilizzare una distribuzione Poisson troncata a zero, che è l'approccio classico per ostacolare la regressione per i dati di conteggio.

La principale differenza tra i modelli a zero zero e i modelli di ostacolo è la probabilità che viene modellata nella parte binaria della regressione. Per i modelli di ostacolo è semplicemente la probabilità di zero contro non zero. Nei modelli a zero inflazione è la probabilità di avere uno zero in eccesso , ovvero la probabilità di uno zero che non è causata dalla distribuzione non gonfiata (ad esempio, Poisson).

Per una discussione sui modelli di ostacolo e di zero inflazione per i dati di conteggio in R, vedere il nostro manoscritto pubblicato in JSS e anche spedito come vignetta al psclpacchetto: http://dx.doi.org/10.18637/jss.v027.i08


7

Ciò che ssdecontrol ha detto è molto corretto. Ma vorrei aggiungere qualche centesimo alla discussione.

Ho appena visto la lezione sui modelli Zero Inflated per i dati di conteggio di Richard McElreath su YouTube.

Ha senso stimare p controllando le variabili che spiegano la velocità del modello di Poisson puro, specialmente se si considera che la probabilità che uno zero osservato sia originato dalla distribuzione di Poisson non è del 100%.

Zero distribuzioni gonfiate come modello multilivello

Ha anche senso se si considerano i parametri del modello, poiché si finiscono con due variabili per stimare, p e la velocità del modello di Poisson e due equazioni, il caso in cui il conteggio è zero e il caso in cui il conteggio è diverso da zero.

Fonte immagine: Ripensamento statistico - Un corso bayesiano con esempi in R e Stan di Richard McElreath

Modifica : refuso


I riferimenti ai materiali di apprendimento sono apprezzati ... ma come risponde alla domanda? Sembra un commento pubblicato come risposta ...
RTbecard,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.