GLM con dati continui ammucchiati a zero

11

Sto cercando di elaborare un modello per stimare in che modo le malattie catastrofiche come la tubercolosi, l'AIDS ecc. Influiscono sulla spesa per il ricovero. Ho un "costo per ricovero in ospedale" come variabile dipendente e vari marcatori individuali come variabili indipendenti, quasi tutti fittizi come il genere, il capofamiglia, lo stato di povertà e ovviamente un manichino per la malattia (oltre l'età e età al quadrato) e un mucchio di termini di interazione.

Come prevedibile, esiste una quantità significativa - e intendo parecchio - di dati accumulati a zero (vale a dire, nessuna spesa per il ricovero in ospedale nel periodo di riferimento di 12 mesi). Quale sarebbe il modo migliore per gestire dati come questi?

A partire da ora ho deciso di convertire il costo in ln(1+cost)modo da includere tutte le osservazioni e quindi eseguire un modello lineare. Sono sulla buona strada?

— user42372
fonte

1

La tua risposta è davvero un conteggio? Il termine che stai cercando è zero inflazione .

— gung - Ripristina Monica

2

Si possono avere anche distribuzioni continue senza inflazione; ci sono modelli gamma a zero zero per esempio.

— Glen_b

1

@Glen_b, questo è quello che avevo in mente. Non ne ho mai fatto uno, però. Il suggerimento di Frank Harrell di OLR è anche un modo intelligente per aggirare il problema.

— gung - Ripristina Monica

8

Come discusso altrove sul sito, la regressione ordinale (ad es. Quote proporzionali, rischi proporzionali, probit) è un approccio flessibile e solido. Sono ammesse discontinuità nella distribuzione di , incluso l'agglomerato estremo. Nulla è assunto sulla distribuzione di per un singolo . I modelli a gonfiaggio zero fanno molte più ipotesi rispetto ai modelli semi-parametrici. Per un case study completo, consultare il mio capitolo 15 delle dispense del corso all'indirizzo http://biostat.mc.vanderbilt.edu/CourseBios330 . $Y$ $Y$ $X$

Un grande vantaggio dei modelli ordinali per continuo è che non è necessario sapere come trasformare prima dell'analisi. $Y$ $Y$

— Frank Harrell
fonte

8

L'aggregazione a 0 si chiama "zero inflazione". Di gran lunga i casi più comuni sono i modelli di conteggio, che portano a Poisson gonfiato a zero e regressione binomiale negativa a gonfiamento zero. Tuttavia, ci sono modi per modellare l'inflazione zero con valori reali positivi (ad esempio il modello gamma a zero inflazione).

Vedi Min e Agresti, 2002, Modellazione di dati non negativi con aggregazione a zero per una revisione di questi metodi.

— Peter Flom - Ripristina Monica
fonte

1

Il suggerimento di utilizzare un modello Poisson a gonfiaggio zero è un inizio interessante. Ha alcuni vantaggi di modellare congiuntamente la probabilità di avere qualsiasi costo correlato alla malattia, nonché il processo di ciò che si rivelano tali costi in caso di malattia. Ha la limitazione che impone una struttura rigorosa su quale sia la forma del risultato, a condizione che siano maturati eventuali costi (ad es. Una relazione media-varianza specifica e un risultato intero positivo ... quest'ultimo può essere rilassato per alcuni scopi di modellazione).

Se si sta bene con il trattamento della ammissione malattia-correlato e costi per malattia subordinato ammissione processi in modo indipendente, è possibile estendere questo primo modellando il processo binario di y / n hai accumulato eventuali costi legati alla malattia? Questo è un semplice modello di regressione logistica e consente di valutare i fattori di rischio e la prevalenza. Detto questo, è possibile limitare un'analisi al sottoinsieme di individui che hanno accumulato costi e modellare il processo di costo effettivo utilizzando una serie di tecniche di modellazione. Poisson è buono, quasi-poisson sarebbe meglio (tenendo conto delle piccole fonti non misurate di covariazione nei dati e delle deviazioni dalle ipotesi modello). Ma il cielo è il limite con la modellazione del processo di costo continuo.

Se è assolutamente necessario modellare la correlazione dei parametri nel processo, è possibile utilizzare le stime di bootstrap SE. Non vedo alcun motivo per cui ciò non sarebbe valido, ma sarebbe curioso di sentire l'input degli altri se questo potrebbe essere sbagliato. In generale, penso che queste siano due domande separate e dovrebbero essere trattate come tali per avere un'inferenza valida.

— ADAMO
fonte