Analisi di sopravvivenza per la previsione di eventi


9

Per ogni record nei miei set di dati ho le seguenti informazioni

(X1 , ,Xm ,δ ,T )

dove sono caratteristiche, è 1 se si verifica l'evento target e 0 altrimenti, e è il timestamp dell'evento accaduto. In particolare, potrebbe mancare se non vi fosse alcun evento o se fosse impostato l'orario di fine del follow-up. δ T TXiδTT

Voglio calcolare un indice di rischio per ogni record nel mio set di dati.

Stavo pensando di scegliere un modello di classificazione che utilizza le funzioni per prevedere la classe . Tuttavia, è importante: se è probabile che l'evento si verifichi presto, il rischio dovrebbe essere maggiore. δ T δXiδTδ

Ecco perché un'analisi di sopravvivenza dovrebbe essere adatta a questo problema. Non ho bisogno della stima completa di ma solo di un singolo indice che rappresenti il ​​rischio per un singolo record.S(t)=P(T>t)

Il tempo medio di sopravvivenza, che può essere calcolato per ogni record, sembra un buon indice di rischio: più basso è il rischio.

La mia domanda è:

  1. L'analisi di sopravvivenza è adatta ai miei scopi?
  2. Come posso valutare le prestazioni del mio modello?

A proposito della domanda (2): Sono desideroso di usare il -index di Harrell per esempio, ma non sono sicuro di quale risultato previsto venga utilizzato per calcolarlo. Dal libro di Harrell Regressione Modeling Strategies pagina 247:c

L' indice [...] viene calcolato prendendo tutte le possibili coppie di soggetti in modo tale che un soggetto abbia risposto e l'altro no. L'indice è la proporzione di tali coppie con il risponditore che ha una probabilità di risposta prevista superiore rispetto al non rispondente.c

Se l'analisi di sopravvivenza risulta essere una scelta giusta, penso che dovrebbe essere facile usare un metodo standard per introdurre covariate variabili nel tempo .Xi(t)

Risposte:


3

L'analisi di sopravvivenza è adatta ai miei scopi?

L'unica cosa che rende questo aspetto meno applicabile per l'analisi di sopravvivenza è:

... potrebbe non essere presente se non si è verificato alcun evento o è stato impostato l'orario di fine del follow-up.TT

Dovrai conoscere l'ultimo periodo in cui è stato osservato che l'individuo è vivo per la maggior parte dei modelli. Altrimenti dovrebbe essere semplice e applicabile utilizzare l'analisi di sopravvivenza. Ad esempio rischio proporzionale di Cox con survival::coxphin R o modelli parametrici con survival::survreg.

Il tempo medio di sopravvivenza, che può essere calcolato per ogni record, sembra un buon indice di rischio: più basso è il rischio.

Sì, è possibile utilizzare i tempi di sopravvivenza medi o solo il predittore lineare per i due modelli (classi di) precedentemente menzionati.

Come posso valutare le prestazioni del mio modello?

L' indice sembra una scelta sensata come generalizzazione "naturale" dell'AUC. Si noti che è implementato in R con es .cHmisc::rcorr.cens

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.