Semplificando un po ', ho circa un milione di dischi che registrano il tempo di entrata e di uscita delle persone in un sistema che dura da circa dieci anni. Ogni record ha un orario di entrata, ma non tutti i record hanno un tempo di uscita. Il tempo medio nel sistema è di ~ 1 anno.
I tempi di uscita mancanti si verificano per due motivi:
- La persona non ha lasciato il sistema al momento dell'acquisizione dei dati.
- Il tempo di uscita della persona non è stato registrato. Questo succede a dire il 50% dei record
Le domande di interesse sono:
- Le persone trascorrono meno tempo nel sistema e quanto meno tempo.
- Vengono registrati più tempi di uscita e quanti.
Possiamo modellarlo dicendo che la probabilità che un'uscita venga registrata varia linearmente con il tempo e che il tempo nel sistema ha un Weibull i cui parametri variano linearmente con il tempo. Possiamo quindi fare una stima della massima verosimiglianza dei vari parametri e controllare i risultati e considerarli plausibili. Abbiamo scelto la distribuzione Weibull perché sembra essere utilizzata per misurare la durata della vita ed è divertente da dire piuttosto che adattare i dati meglio di una distribuzione gamma.
Dove dovrei cercare un indizio su come farlo correttamente? Siamo in qualche modo matematicamente esperti, ma non estremamente esperti statisticamente.