Qual è la differenza tra i modelli a gonfiaggio zero e quelli a ostacoli?


81

Mi chiedo se ci sia una netta differenza tra le cosiddette distribuzioni a zero influssi (modelli) e le cosiddette distribuzioni hurdle-a-zero (modelli)? I termini si presentano abbastanza spesso in letteratura e sospetto che non siano gli stessi, ma mi spiegheresti per favore la differenza in termini semplici?

Risposte:


80

Grazie per l'interessante domanda!

Differenza: una limitazione dei modelli di conteggio standard è che si presume che gli zeri e i nonzeros (positivi) provengano dallo stesso processo di generazione dei dati. Con i modelli di ostacolo , questi due processi non sono vincolati per essere gli stessi. L'idea di base è che una probabilità di Bernoulli governa l'esito binario del fatto che una variabile conte abbia una realizzazione zero o positiva. Se la realizzazione è positiva, l'ostacolo viene attraversato e la distribuzione condizionale dei positivi è regolata da un modello di dati di conteggio a zero zero. Con modelli a gonfiaggio zero, la variabile di risposta è modellata come una miscela di una distribuzione di Bernoulli (o la chiama una massa di punti a zero) e una distribuzione di Poisson (o qualsiasi altra distribuzione di conteggio supportata su numeri interi non negativi). Per maggiori dettagli e formule, vedi, ad esempio, Gurmu e Trivedi (2011) e Dalrymple, Hudson e Ford (2003).

Esempio: i modelli di ostacolo possono essere motivati ​​da processi decisionali sequenziali confrontati da individui. Decidi innanzitutto se devi acquistare qualcosa, quindi decidi la quantità di quel qualcosa (che deve essere positivo). Quando ti è permesso (o puoi potenzialmente) acquistare nulla dopo la tua decisione di acquistare qualcosa è un esempio di una situazione in cui il modello a zero inflazione è appropriato. Gli zeri possono provenire da due fonti: a) nessuna decisione di acquisto; b) voleva acquistare ma alla fine non ha acquistato nulla (ad es. esaurito).

Beta: il modello di ostacolo è un caso speciale del modello in due parti descritto nel capitolo 16 di Frees (2011). Lì, vedremo che per i modelli in due parti, la quantità di assistenza sanitaria utilizzata può essere una variabile continua e una conta. Quindi ciò che è stato in qualche modo definito in modo confuso "distribuzione beta a zero inflazione" in letteratura appartiene infatti alla classe delle distribuzioni e dei modelli in due parti (così comuni nella scienza attuariale), che è coerente con la precedente definizione di un modello di ostacolo . Questo eccellente libro ha discusso dei modelli a gonfiaggio zero nella sezione 12.4.1 e dei modelli di ostacolo nella sezione 12.4.2, con formule ed esempi da applicazioni attuariali.

Storia: i modelli Poisson (ZIP) a zero inflazione senza covariate hanno una lunga storia (vedi ad esempio Johnson e Kotz, 1969). La forma generale dei modelli di regressione ZIP che incorporano le covariate è dovuta a Lambert (1992). I modelli di ostacolo furono inizialmente proposti dallo statistico canadese Cragg (1971), e successivamente sviluppati ulteriormente da Mullahy (1986). Puoi anche considerare Croston (1972), dove i conteggi geometrici positivi vengono usati insieme al processo di Bernoulli per descrivere un processo a valori interi dominato dagli zeri.

R: Infine, se usi R, esiste un pacchetto pscl per "Classi e metodi per la R sviluppati nel laboratorio computazionale di scienze politiche" di Simon Jackman, contenente le funzioni hurdle () e zeroinfl () di Achim Zeileis.

I seguenti riferimenti sono stati consultati per produrre quanto sopra:

  • Gurmu, S. & Trivedi, Zeri in eccesso PK nei modelli di conteggio per i viaggi ricreativi Journal of Business & Economic Statistics, 1996, 14, 469-477
  • Johnson, N., Kotz, S., Distribuzioni in statistica: Distribuzioni discrete. 1969, Houghton MiZin, Boston
  • Lambert, D., regressione di Poisson a gonfiaggio zero con un'applicazione ai difetti di fabbricazione. Technometrics, 1992, 34 (1), 1–14.
  • Cragg, JG Alcuni modelli statistici per variabili dipendenti limitate con applicazione alla domanda di beni durevoli Econometrica, 1971, 39, 829-844
  • Mullahy, J. Specifica e test di alcuni modelli di dati di conteggio modificati Journal of Econometrics, 1986, 33, 341-365
  • Libera, EW Regressione Modelling con applicazioni attuariali e finanziarie Cambridge University Press, 2011
  • Dalrymple, ML; Hudson, IL & Ford, Miscela finita RPK, Poisson a gonfiaggio zero e modelli di ostacolo con applicazione alle statistiche computazionali SIDS e analisi dei dati, 2003, 41, 491-504
  • Croston, JD Previsione e controllo delle scorte per le richieste intermittenti Ricerca operativa trimestrale, 1972, 23, 289-303

2
Un modello di ostacolo è davvero un "modello" stesso, quindi? O esegue due modelli sequenziali e stimati separatamente? Immagina di modellare la competitività delle razze elettorali osservando i punteggi di competitività (1 - margine di vittoria). Questo è limitato [0, 1), perché non ci sono legami (ad es. 1). Quindi facciamo prima una regressione logistica per analizzare 0 vs. (0, 1). Quindi eseguiamo la regressione beta per analizzare i casi (0, 1). Sembra che questi siano due modelli completamente diversi, con i loro coefficienti e una stima separata? O mi sta sfuggendo qualcosa?
Mark White il

Ad esempio, nella tua risposta menzioni che gli zeri potrebbero essere dovuti a (a) decidere di non acquistare un'auto, o (b) volere, ma era esaurito. Sembra che un modello di ostacolo non sarebbe in grado di distinguere tra i due, dal momento che sono fatti in sequenza ...?
Mark White il

Considera un altro esempio: le risposte sono [1, 7], come una scala Likert tradizionale, con un enorme effetto soffitto a 7. Si potrebbe fare un modello di ostacolo che è la regressione logistica di [1, 7) contro 7, e quindi una regressione di Tobit per tutti i casi in cui le risposte osservate sono <7. Ancora una volta, otteniamo due serie di coefficienti di regressione, che vengono stimati separatamente. Sembra che non stiamo modellando questi processi congiuntamente, ma in due modelli totalmente diversi? Quindi, l'ostacolo è in realtà un modello o semplicemente il processo di fare due diversi tipi di modelli lineari generalizzati di seguito?
Mark White il

Ho esteso questa domanda nel mio post qui: stats.stackexchange.com/questions/320924/…
Mark White il

47

I modelli di ostacolo presumono che vi sia un solo processo attraverso il quale è possibile produrre uno zero, mentre i modelli a gonfiaggio zero presuppongono che vi siano 2 processi diversi che possono produrre uno zero.

I modelli di ostacolo assumono 2 tipi di soggetti: (1) quelli che non hanno mai sperimentato il risultato e (2) quelli che hanno sempre sperimentato il risultato almeno una volta. I modelli a zero inflazionamento concettualizzano i soggetti come (1) quelli che non sperimentano mai il risultato e (2) quelli che possono sperimentare il risultato ma non sempre.

In parole povere: entrambi i modelli con gonfiaggio zero e ostacolo sono descritti in due parti.

π1ππ

La seconda parte è la parte di conteggio, che si verifica quando il sistema è "acceso". È qui che differiscono i modelli a gonfiaggio zero e ostacolo. Nei modelli a gonfiaggio zero, i conteggi possono comunque essere pari a zero. Nei modelli a ostacoli devono essere diversi da zero. Per questa parte, i modelli a zero zero utilizzano una distribuzione di probabilità discreta "normale" mentre i modelli di ostacolo utilizzano una funzione di distribuzione di probabilità discreta a zero zero.

Esempio di un modello di ostacolo: un produttore di automobili desidera confrontare due programmi di controllo di qualità per le sue automobili. Li confronterà sulla base del numero di richieste di garanzia presentate. Per ogni programma, viene seguito un insieme di clienti selezionati casualmente per 1 anno e viene conteggiato il numero di richieste di garanzia che presentano. Le probabilità di inflazione per ciascuno dei due programmi vengono quindi confrontate. Lo stato "off" è "archiviato zero reclami" mentre lo stato "on" è "archiviato almeno un reclamo".

Esempio di modello a gonfiaggio zero: nello stesso studio di cui sopra, i ricercatori hanno scoperto che alcune riparazioni sulle automobili sono state riparate senza presentare una richiesta di garanzia. In questo modo, gli zeri sono un misto tra l'assenza di problemi di controllo della qualità e la presenza di problemi di controllo della qualità che non hanno comportato richieste di garanzia. Lo stato "off" significa "archiviato zero reclami" mentre lo stato "on" significa "archiviato almeno un reclamo OPPURE le riparazioni sono state riparate senza presentare un reclamo".

Vedi qui per uno studio in cui entrambi i tipi di modelli sono stati applicati allo stesso set di dati.


Grazie per la risposta dettagliata Avresti un'idea di quale sia la terminologia appropriata per la distribuzione beta standard con zeri aggiunti? Usando la tua definizione di modelli a zero inflazionato, esiste chiaramente una fonte di zeri, quindi non può essere chiamato inflazionato a zero ... Vedi questa discussione stats.stackexchange.com/questions/81343/…
skulker

2
Mi piace la "distribuzione beta a zero aggiunte" come suggerito da @Hibernating
Darren James,

10

yiπyiλ1π

Pr(yj=0)=π+(1π)eλ
Pr(yj=xi)=(1π)λxieλxi!,xi1

e in un modello di ostacolo ~ 0 con probabilità e ~ distribuzione troncata di Poisson ( ) con probabilità e: yiπyiλ1π

Pr(yj=0)=π
Pr(yj=xi)=(1π)1eλ(λxieλxi!),xi1

4

Per quanto riguarda i modelli di ostacolo, ecco una citazione da Advances in Mathematical and Statistical Modeling (Arnold, Balakrishnan, Sarabia e Mínguez, 2008):

Il modello di ostacolo è caratterizzato dal processo sotto l'ostacolo e quello sopra. Ovviamente, il modello di ostacolo più utilizzato è quello che imposta l'ostacolo a zero. Formalmente, il modello hurdle-at-zero è espresso come: per perP(Ni=ni)=f1(0)ni=0 P(Ni=ni)=1f1(0)1f2(0)f2(ni)=ϕf2(ni)ni=1,2,...

La variabile può essere interpretata come la probabilità di attraversare l'ostacolo, o più precisamente nel caso dell'assicurazione, la probabilità di segnalare almeno un reclamo.ϕ

Per quanto riguarda i modelli a gonfiaggio zero, Wikipedia dice :

Un modello a inflazione zero è un modello statistico basato su una distribuzione di probabilità a inflazione zero, ovvero una distribuzione che consente frequenti osservazioni a valore zero.

Il modello di Poisson a inflazione zero riguarda un evento casuale contenente dati di conteggio zero in eccesso in unità di tempo. Ad esempio, il numero di sinistri nei confronti di una compagnia assicurativa da parte di una determinata persona coperta è quasi sempre zero, altrimenti perdite sostanziali causerebbero il fallimento della compagnia assicurativa. Il modello Poisson (ZIP) gonfiato a zero impiega due componenti che corrispondono a due processi di generazione zero. Il primo processo è governato da una distribuzione binaria che genera zeri strutturali. Il secondo processo è governato da una distribuzione di Poisson che genera conteggi, alcuni dei quali possono essere zero. I due componenti del modello sono descritti come segue:[1]

Pr(yj=0)=π+(1π)eλ
Pr(yj=hi)=(1π)λhieλhi!,hi1
dove la variabile di risultato ha un valore intero non negativo, è il conteggio di Poisson atteso per il individuo; è la probabilità di zeri extra.yjλiiπ

Da Arnold e colleghi (2008), vedo che un modello hurdle-a-zero è un caso speciale della classe più generale di modelli hurdle, ma da un riferimento su Wikipedia ( Hall, 2004 ), vedo anche che alcuni zero- i modelli gonfiati possono essere limitati. Non capisco bene la differenza nelle formule, ma sembrano essere abbastanza simili (entrambi usano persino un esempio molto simile, i reclami di assicurazione). Spero che altre risposte possano aiutare a spiegare eventuali differenze importanti e che questa risposta aiuterà a preparare il terreno per quelle.

Riferimento di Wikipedia:

  1. Lambert, D. (1992). Regressione di Poisson a gonfiaggio zero, con un'applicazione ai difetti di fabbricazione. Technometrics, 34 (1), 1–14.
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.