GLM con dati continui ammucchiati a zero


11

Sto cercando di elaborare un modello per stimare in che modo le malattie catastrofiche come la tubercolosi, l'AIDS ecc. Influiscono sulla spesa per il ricovero. Ho un "costo per ricovero in ospedale" come variabile dipendente e vari marcatori individuali come variabili indipendenti, quasi tutti fittizi come il genere, il capofamiglia, lo stato di povertà e ovviamente un manichino per la malattia (oltre l'età e età al quadrato) e un mucchio di termini di interazione.

Come prevedibile, esiste una quantità significativa - e intendo parecchio - di dati accumulati a zero (vale a dire, nessuna spesa per il ricovero in ospedale nel periodo di riferimento di 12 mesi). Quale sarebbe il modo migliore per gestire dati come questi?

A partire da ora ho deciso di convertire il costo in ln(1+cost)modo da includere tutte le osservazioni e quindi eseguire un modello lineare. Sono sulla buona strada?


1
La tua risposta è davvero un conteggio? Il termine che stai cercando è zero inflazione .
gung - Ripristina Monica

2
Si possono avere anche distribuzioni continue senza inflazione; ci sono modelli gamma a zero zero per esempio.
Glen_b

1
@Glen_b, questo è quello che avevo in mente. Non ne ho mai fatto uno, però. Il suggerimento di Frank Harrell di OLR è anche un modo intelligente per aggirare il problema.
gung - Ripristina Monica

Risposte:


8

Come discusso altrove sul sito, la regressione ordinale (ad es. Quote proporzionali, rischi proporzionali, probit) è un approccio flessibile e solido. Sono ammesse discontinuità nella distribuzione di , incluso l'agglomerato estremo. Nulla è assunto sulla distribuzione di per un singolo . I modelli a gonfiaggio zero fanno molte più ipotesi rispetto ai modelli semi-parametrici. Per un case study completo, consultare il mio capitolo 15 delle dispense del corso all'indirizzo http://biostat.mc.vanderbilt.edu/CourseBios330 .Y XYYX

Un grande vantaggio dei modelli ordinali per continuo è che non è necessario sapere come trasformare prima dell'analisi.YYY



1

Il suggerimento di utilizzare un modello Poisson a gonfiaggio zero è un inizio interessante. Ha alcuni vantaggi di modellare congiuntamente la probabilità di avere qualsiasi costo correlato alla malattia, nonché il processo di ciò che si rivelano tali costi in caso di malattia. Ha la limitazione che impone una struttura rigorosa su quale sia la forma del risultato, a condizione che siano maturati eventuali costi (ad es. Una relazione media-varianza specifica e un risultato intero positivo ... quest'ultimo può essere rilassato per alcuni scopi di modellazione).

Se si sta bene con il trattamento della ammissione malattia-correlato e costi per malattia subordinato ammissione processi in modo indipendente, è possibile estendere questo primo modellando il processo binario di y / n hai accumulato eventuali costi legati alla malattia? Questo è un semplice modello di regressione logistica e consente di valutare i fattori di rischio e la prevalenza. Detto questo, è possibile limitare un'analisi al sottoinsieme di individui che hanno accumulato costi e modellare il processo di costo effettivo utilizzando una serie di tecniche di modellazione. Poisson è buono, quasi-poisson sarebbe meglio (tenendo conto delle piccole fonti non misurate di covariazione nei dati e delle deviazioni dalle ipotesi modello). Ma il cielo è il limite con la modellazione del processo di costo continuo.

Se è assolutamente necessario modellare la correlazione dei parametri nel processo, è possibile utilizzare le stime di bootstrap SE. Non vedo alcun motivo per cui ciò non sarebbe valido, ma sarebbe curioso di sentire l'input degli altri se questo potrebbe essere sbagliato. In generale, penso che queste siano due domande separate e dovrebbero essere trattate come tali per avere un'inferenza valida.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.