Come posso determinare se un modello di sopravvivenza con dati mancanti è appropriato?


9

Semplificando un po ', ho circa un milione di dischi che registrano il tempo di entrata e di uscita delle persone in un sistema che dura da circa dieci anni. Ogni record ha un orario di entrata, ma non tutti i record hanno un tempo di uscita. Il tempo medio nel sistema è di ~ 1 anno.

I tempi di uscita mancanti si verificano per due motivi:

  1. La persona non ha lasciato il sistema al momento dell'acquisizione dei dati.
  2. Il tempo di uscita della persona non è stato registrato. Questo succede a dire il 50% dei record

Le domande di interesse sono:

  1. Le persone trascorrono meno tempo nel sistema e quanto meno tempo.
  2. Vengono registrati più tempi di uscita e quanti.

Possiamo modellarlo dicendo che la probabilità che un'uscita venga registrata varia linearmente con il tempo e che il tempo nel sistema ha un Weibull i cui parametri variano linearmente con il tempo. Possiamo quindi fare una stima della massima verosimiglianza dei vari parametri e controllare i risultati e considerarli plausibili. Abbiamo scelto la distribuzione Weibull perché sembra essere utilizzata per misurare la durata della vita ed è divertente da dire piuttosto che adattare i dati meglio di una distribuzione gamma.

Dove dovrei cercare un indizio su come farlo correttamente? Siamo in qualche modo matematicamente esperti, ma non estremamente esperti statisticamente.

Risposte:


5

Il modo di base per vedere se i tuoi dati sono Weibull è tracciare il registro dei pericoli cumulativi rispetto al registro dei tempi e vedere se una linea retta potrebbe essere adatta. Il rischio cumulativo può essere trovato utilizzando lo stimatore Nelson-Aalen non parametrico. Esistono diagnosi grafiche simili per la regressione di Weibull se si adattano i dati con le covariate e seguono alcuni riferimenti.

Il testo di Klein & Moeschberger è piuttosto buono e copre molto terreno con la costruzione / diagnostica di modelli per modelli parametrici e semi-parametrici (sebbene per lo più quest'ultimo). Se lavori in R, il libro di Theneau è abbastanza buono (credo che abbia scritto il pacchetto di sopravvivenza ). Copre un sacco di Cox PH e modelli associati, ma non ricordo se ha molta copertura di modelli parametrici, come quello che stai costruendo.

A proposito, si tratta di un milione di soggetti ciascuno con un ingresso / uscita o eventi di entrata / uscita ricorrenti per un gruppo più ristretto di persone? Stai condizionando la tua probabilità di rendere conto del meccanismo di censura?


Grazie, questo è proprio quello che stavo cercando. Si tratta essenzialmente di un milione di soggetti ciascuno con un tempo di entrata e uscita. Sì, siamo condizionati a rendere conto della censura.
dal

2

È possibile utilizzare il modello stimato per prevedere i tempi di uscita di tutte le persone nel proprio sistema. È quindi possibile confrontare i tempi di uscita stimati con i tempi di uscita effettivi (in cui si dispone di questi dati) e calcolare una metrica come RMSE per valutare la validità delle previsioni che a loro volta daranno un senso di adattamento al modello. Vedi anche questo link .


1
Con un milione di punti e un modello a 8 parametri, una bontà del test di adattamento come il chi-quadrato mi dice che essenzialmente non c'è alcuna possibilità che il modello sia corretto. (Il che non sorprende, poiché ci sono infiniti fattori che influenzano la realtà che non sono nel modello) RMSE mi dà un'idea di quanto il modello si adatti ai dati, ma non mi dà l'idea se esiste un modello migliore
dal

Bene, per scoprire se esiste un modello migliore, è possibile sperimentare formulazioni diverse oppure utilizzare vari grafici (ad es. Tempi di uscita rispetto al tempo) per vedere se i dati sono coerenti con le ipotesi del modello. È inoltre possibile tracciare i tempi di uscita previsti per un piccolo campione selezionato in orari casuali di fronte a idee di miglioramento del modello.
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.