Intuizione per la funzione di rischio cumulativo (analisi di sopravvivenza)


17

Sto cercando di ottenere l'intuizione per ciascuna delle principali funzioni della scienza attuariale (in particolare per il modello dei rischi proporzionali di Cox). Ecco cosa ho finora:

  • f(x) : a partire dall'ora di inizio, la distribuzione di probabilità di quando morirai.
  • F(x) : solo la distribuzione cumulativa. Al momento , quale% della popolazione sarà morta?T
  • S(x) : . Al momento , quale% della popolazione sarà viva?1F(x)T
  • h(x) : funzione di pericolo. In un dato momento , delle persone ancora vive, questo può essere usato per stimare quante persone moriranno nel prossimo intervallo di tempo, o se intervallo-> 0, probabilità di morte "istantanea".T
  • H(x) : rischio cumulativo. Nessuna idea.

Qual è l'idea alla base della combinazione dei valori di pericolo, soprattutto quando sono continui? Se utilizziamo un esempio discreto con tassi di mortalità per quattro stagioni e la funzione di pericolo è la seguente:

  • A partire da primavera, tutti sono vivi e il 20% morirà
  • Ora in estate, tra quelli rimasti, il 50% morirà
  • Ora in autunno, tra quelli rimasti, il 75% morirà
  • L'ultima stagione è l'inverno. Di quelli rimanenti, il 100% morirà

Quindi il rischio cumulativo è del 20%, 70%, 145%, 245% ?? Cosa significa e perché è utile?


1
Le tue dovrebbero essere , o viceversa. Tx
Glen_b

5
Per quanto riguarda , hai un errore (anche se è una confusione molto comune). Scrivi "intervallo-> 0, probabilità di morte" istantanea ". Un'affermazione corretta sarebbe " tasso di mortalità istantanea ". Questa non può essere una probabilità perché è una probabilità divisa per d t ; inoltre, potrebbe essere> 1. h(x)dt
gung - Ripristina Monica

Risposte:


6

Combinare le proporzioni morendo mentre fai non ti dà il rischio cumulativo. La percentuale di pericolo in tempo continuo è una probabilità condizionata che durante un intervallo molto breve si verifichi un evento:

h(t)=limΔt0P(t<Tt+Δt|T>t)Δt

Il rischio cumulativo sta integrando il tasso di pericolo (istantaneo) nel corso di età / tempo. È come riassumere le probabilità, ma poiché è molto piccolo, queste probabilità sono anche piccole (ad esempio, il tasso di rischio di morte può aggirarsi intorno allo 0,004 a circa 30 anni). La percentuale di pericolo è subordinata al fatto di non aver vissuto l'evento prima di , quindi per una popolazione può superare 1.Δtt

Puoi cercare un po 'di tabella di vita sulla mortalità umana, sebbene questa sia una formulazione temporale discreta e provare ad accumulare .mx

Se usi R, ecco un piccolo esempio di approssimazione di queste funzioni dal numero di decessi per ogni intervallo di età di 1 anno:

dx <-  c(3184L, 268L, 145L, 81L, 64L, 81L, 101L, 50L, 72L, 76L, 50L, 
         62L, 65L, 95L, 86L, 120L, 86L, 110L, 144L, 147L, 206L, 244L, 
         175L, 227L, 182L, 227L, 205L, 196L, 202L, 154L, 218L, 279L, 193L, 
         223L, 227L, 300L, 226L, 256L, 259L, 282L, 303L, 373L, 412L, 297L, 
         436L, 402L, 356L, 485L, 495L, 597L, 645L, 535L, 646L, 851L, 689L, 
         823L, 927L, 878L, 1036L, 1070L, 971L, 1225L, 1298L, 1539L, 1544L, 
         1673L, 1700L, 1909L, 2253L, 2388L, 2578L, 2353L, 2824L, 2909L, 
         2994L, 2970L, 2929L, 3401L, 3267L, 3411L, 3532L, 3090L, 3163L, 
         3060L, 2870L, 2650L, 2405L, 2143L, 1872L, 1601L, 1340L, 1095L, 
         872L, 677L, 512L, 376L, 268L, 186L, 125L, 81L, 51L, 31L, 18L, 
         11L, 6L, 3L, 2L)

x <- 0:(length(dx)-1) # age vector

plot((dx/sum(dx))/(1-cumsum(dx/sum(dx))), t="l", xlab="age", ylab="h(t)", 
     main="h(t)", log="y")
plot(cumsum((dx/sum(dx))/(1-cumsum(dx/sum(dx)))), t="l", xlab="age", ylab="H(t)", 
     main="H(t)")

Spero che sia di aiuto.


È corretto dire che h (t) * dt è la probabilità che si verifichi un evento in un intervallo di lunghezza dt attorno a t? pertanto, il valore h (t) è la probabilità che si verifichi un evento entro 1 unità di tempo centrata attorno a t. Questo sarebbe il caso solo se h (t) <= 1
crow

10

Il libro "An Introduction to Survival Analysis Using Stata" (2a edizione) di Mario Cleves ha un buon capitolo su questo argomento.

Puoi trovare il capitolo su google books , p. 13-15. Ma consiglierei di leggere l'intero capitolo 2.

Ecco la forma abbreviata:

  • "misura la quantità totale di rischio che è stata accumulata fino al tempo t" (p. 8)
  • contare l'interpretazione dei dati: "indica il numero di volte in cui ci aspetteremmo (matematicamente) di osservare guasti [o altri eventi] in un determinato periodo, se solo l'evento di fallimento fosse ripetibile" (p. 13)

5

Mi piacerebbe Hazard una supposizione che è degno di nota per la sua utilizzazione in appezzamenti di diagnostica:

h(x)=eβTzh0(x)βzh0(x)logH(x)=βTz+H0(x)logH^(x)x

h(x)=αθ(xθ)α1θαlogH(x)=αlogxαlogθlogH^(x)logxα^α^logθ^, a condizione che l'ipotesi di Weibull sia corretta. E ovviamente una pendenza vicino a 1 suggerisce che un modello esponenziale potrebbe adattarsi.

H(X)X


3

Parafrasando ciò che sta dicendo @Scortchi, vorrei sottolineare che la funzione di rischio cumulativo non ha una buona interpretazione, e come tale non proverei a usarla come un modo per interpretare i risultati; dire a un ricercatore non statistico che i pericoli cumulativi sono diversi porterà molto probabilmente a una risposta "mm-hm" e quindi non chiederanno mai più sull'argomento, e non in senso positivo.

Tuttavia, la funzione di rischio cumulativo risulta molto utile matematicamente, come un modo generale per collegare la funzione di pericolo e la funzione di sopravvivenza. Quindi è importante sapere qual è il rischio cumulativo e come può essere utilizzato in vari metodi statistici. Ma in generale, non credo sia particolarmente utile pensare ai dati reali in termini di rischi cumulativi.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.