Sto cercando di elaborare un modello per stimare in che modo le malattie catastrofiche come la tubercolosi, l'AIDS ecc. Influiscono sulla spesa per il ricovero. Ho un "costo per ricovero in ospedale" come variabile dipendente e vari marcatori individuali come variabili indipendenti, quasi tutti fittizi come il genere, il capofamiglia, lo stato di povertà e ovviamente un manichino per la malattia (oltre l'età e età al quadrato) e un mucchio di termini di interazione.
Come prevedibile, esiste una quantità significativa - e intendo parecchio - di dati accumulati a zero (vale a dire, nessuna spesa per il ricovero in ospedale nel periodo di riferimento di 12 mesi). Quale sarebbe il modo migliore per gestire dati come questi?
A partire da ora ho deciso di convertire il costo in ln(1+cost)
modo da includere tutte le osservazioni e quindi eseguire un modello lineare. Sono sulla buona strada?