Per ogni record nei miei set di dati ho le seguenti informazioni
dove sono caratteristiche, è 1 se si verifica l'evento target e 0 altrimenti, e è il timestamp dell'evento accaduto. In particolare, potrebbe mancare se non vi fosse alcun evento o se fosse impostato l'orario di fine del follow-up. δ T T
Voglio calcolare un indice di rischio per ogni record nel mio set di dati.
Stavo pensando di scegliere un modello di classificazione che utilizza le funzioni per prevedere la classe . Tuttavia, è importante: se è probabile che l'evento si verifichi presto, il rischio dovrebbe essere maggiore. δ T δ
Ecco perché un'analisi di sopravvivenza dovrebbe essere adatta a questo problema. Non ho bisogno della stima completa di ma solo di un singolo indice che rappresenti il rischio per un singolo record.
Il tempo medio di sopravvivenza, che può essere calcolato per ogni record, sembra un buon indice di rischio: più basso è il rischio.
La mia domanda è:
- L'analisi di sopravvivenza è adatta ai miei scopi?
- Come posso valutare le prestazioni del mio modello?
A proposito della domanda (2): Sono desideroso di usare il -index di Harrell per esempio, ma non sono sicuro di quale risultato previsto venga utilizzato per calcolarlo. Dal libro di Harrell Regressione Modeling Strategies pagina 247:
L' indice [...] viene calcolato prendendo tutte le possibili coppie di soggetti in modo tale che un soggetto abbia risposto e l'altro no. L'indice è la proporzione di tali coppie con il risponditore che ha una probabilità di risposta prevista superiore rispetto al non rispondente.
Se l'analisi di sopravvivenza risulta essere una scelta giusta, penso che dovrebbe essere facile usare un metodo standard per introdurre covariate variabili nel tempo .