Analisi di sopravvivenza per la previsione di eventi

Per ogni record nei miei set di dati ho le seguenti informazioni

(X_{1}, \dots, X_{m}, δ, T)

$(X_1 \ , \dots \ , X_m \ , \delta \ , T \ )$

dove sono caratteristiche, è 1 se si verifica l'evento target e 0 altrimenti, e è il timestamp dell'evento accaduto. In particolare, potrebbe mancare se non vi fosse alcun evento o se fosse impostato l'orario di fine del follow-up. $X_i$ $\delta$ $T$ $T$

Voglio calcolare un indice di rischio per ogni record nel mio set di dati.

Stavo pensando di scegliere un modello di classificazione che utilizza le funzioni per prevedere la classe . Tuttavia, è importante: se è probabile che l'evento si verifichi presto, il rischio dovrebbe essere maggiore. $X_i$ $\delta$ $T$ $\delta$

Ecco perché un'analisi di sopravvivenza dovrebbe essere adatta a questo problema. Non ho bisogno della stima completa di ma solo di un singolo indice che rappresenti il rischio per un singolo record. $S(t) = P(T>t)$

Il tempo medio di sopravvivenza, che può essere calcolato per ogni record, sembra un buon indice di rischio: più basso è il rischio.

La mia domanda è:

L'analisi di sopravvivenza è adatta ai miei scopi?
Come posso valutare le prestazioni del mio modello?

A proposito della domanda (2): Sono desideroso di usare il -index di Harrell per esempio, ma non sono sicuro di quale risultato previsto venga utilizzato per calcolarlo. Dal libro di Harrell Regressione Modeling Strategies pagina 247: $c$

L' indice [...] viene calcolato prendendo tutte le possibili coppie di soggetti in modo tale che un soggetto abbia risposto e l'altro no. L'indice è la proporzione di tali coppie con il risponditore che ha una probabilità di risposta prevista superiore rispetto al non rispondente. $c$

Se l'analisi di sopravvivenza risulta essere una scelta giusta, penso che dovrebbe essere facile usare un metodo standard per introdurre covariate variabili nel tempo . $X_i(t)$

classification survival

— Simone
fonte

L'analisi di sopravvivenza è adatta ai miei scopi?

L'unica cosa che rende questo aspetto meno applicabile per l'analisi di sopravvivenza è:

... potrebbe non essere presente se non si è verificato alcun evento o è stato impostato l'orario di fine del follow-up. $TT$

Dovrai conoscere l'ultimo periodo in cui è stato osservato che l'individuo è vivo per la maggior parte dei modelli. Altrimenti dovrebbe essere semplice e applicabile utilizzare l'analisi di sopravvivenza. Ad esempio rischio proporzionale di Cox con survival::coxphin R o modelli parametrici con survival::survreg.

Il tempo medio di sopravvivenza, che può essere calcolato per ogni record, sembra un buon indice di rischio: più basso è il rischio.

Sì, è possibile utilizzare i tempi di sopravvivenza medi o solo il predittore lineare per i due modelli (classi di) precedentemente menzionati.

Come posso valutare le prestazioni del mio modello?

L' indice sembra una scelta sensata come generalizzazione "naturale" dell'AUC. Si noti che è implementato in R con es . $c$ Hmisc::rcorr.cens

— Benjamin Christoffersen
fonte