Domande di base sull'analisi della sopravvivenza nel tempo discreto


18

Sto tentando di eseguire un'analisi discreta della sopravvivenza nel tempo usando un modello di regressione logistica e non sono sicuro di aver compreso completamente il processo. Apprezzerei molto l'assistenza con alcune domande di base.

Ecco la configurazione:

Sto esaminando l'adesione a un gruppo entro un periodo di cinque anni. Ogni membro ha un record mensile di appartenenza per ogni mese in cui quel membro fa parte del gruppo. Sto prendendo in considerazione tutti i membri la cui appartenenza è iniziata durante la finestra quinquennale (per evitare problemi di "censura di sinistra" con i membri che si sono uniti in precedenza). Ogni record verrà indicizzato in base al tempo, con l'ora uno il mese in cui il membro ha aderito. Quindi, un membro che rimane per due anni e mezzo avrà trenta record mensili, numerati da uno a trenta. Ad ogni record verrà inoltre fornita una variabile binaria, che avrà un valore di uno per l'ultimo mese di appartenenza e zero altrimenti; un valore di uno per la variabile binaria indica l'evento in cui il membro ha lasciato il gruppo. Per ogni membro la cui appartenenza continua oltre la finestra di analisi quinquennale,

Quindi, il modello di regressione logistica è costruito per prevedere i valori della variabile di evento binario. Fin qui tutto bene. Uno dei modi tipici per valutare un modello predittivo binario è misurare l'ascensore su un campione di controllo. Per il modello di regressione logistica che ho creato per prevedere l'evento di fine appartenenza, ho calcolato l'ascensore su un set di dati di controllo con un rapporto cinque a uno tra non eventi ed eventi. Ho classificato i valori previsti in decili. Il decile con i valori più alti previsti ne contiene il settanta percento, un aumento di oltre quattro. I primi due decili combinati contengono il sessantacinque percento di tutti quelli presenti nell'attesa. In alcuni contesti questo sarebbe considerato un modello predittivo abbastanza decente, ma mi chiedo se sia abbastanza buono per effettuare un'analisi di sopravvivenza.

Sia h[j,k] la funzione di rischio per l'individuo j nel mese k e sia S[j,k] la probabilità che l'individuo j sopravviva durante il mese k .

Ecco le mie domande fondamentali:

  1. La funzione di rischio discreto, h[j,k] , è la probabilità condizionale di non sopravvivenza (lasciare il gruppo) in ogni mese?

  2. I valori previsti sono dalle stime del modello di regressione logistica della funzione di pericolo? (ovvero, uguale al valore previsto del modello per l'individuo j nel mese k , oppure è necessario fare qualcosa in più per ottenere stime della funzione di rischio?)h[j,k]jk

  3. La probabilità di sopravvivenza fino al mese q per l'individuo uguale al prodotto di uno meno la funzione di rischio dal mese uno fino a q , ovvero S [ j , q ] = ( 1 - h [ j , 1 ] ) ( 1 - h [ j , 2 ] ) ( 1 - h [ j , q ] ) ?jqS[j,q]=(1h[j,1])(1h[j,2])(1h[j,q])

  4. Il valore medio di su tutti gli individui j per ogni volta k è una stima ragionevole della popolazione media probabilità di sopravvivenza?S[j,k]jk

  5. Un diagramma della popolazione complessiva dovrebbe significare che la probabilità di sopravvivenza per mese dovrebbe assomigliare al grafico mensile Kaplan-Meier?

Se la risposta a una di queste domande è negativa, allora ho un grave fraintendimento e potrei davvero usare un po 'di assistenza / spiegazione. Inoltre, esiste una regola empirica per quanto deve essere buono il modello predittivo binario per produrre un profilo di sopravvivenza accurato?


Forse questo può aiutarti con alcune delle tue domande
jujae,

Risposte:


7

Supponiamo che K sia il valore più grande di k (ovvero il mese / periodo più grande osservato nei tuoi dati).

  1. Ecco la funzione di pericolo con una parametrizzazione del tempo completamente discreta e con un vettore di parametri B un vettore di variabili condizionanti X : hj,k=eαk+BX1+eαk+BX . La funzione di pericolo può anche essere costruita attorno a parametrizzazioni alternative del tempo (ad esempio includendoko funzioni di essa come variabile nel modello) o attorno a un ibrido di entrambi.

    La funzione di pericolo logit basale descrive la probabilità che si verifichi un evento nel tempo k , a condizione che sia sopravvissuto al tempo k . L'aggiunta di predittori ( X ) al modello limita ulteriormente questa condizionalità.

  2. No, le stime di regressione logistica α^1 , , α K , B ) sono non le funzioni di rischio stessi. I modelli di regressione logistica: logit ( h j , k ) = α k + B X , ed è necessario eseguire la trasformazione anti-logit in (1) sopra per ottenere le stime dei pericoli.α^KB^(hj,k)=αk+BX

  3. Sì. Anche se avrei notate che S j , q = Π q i = 1 ( 1 - h j , i ) . La funzione di sopravvivenza è la probabilità di non esperienza dell'evento da tempo k , e naturalmente può anche essere condizionato X .S^j,q=i=1q(1hj,i)kX

  4. Questa è una domanda sottile, non sono sicuro di avere delle risposte. Ho delle domande, però. :) La dimensione del campione in ogni periodo di tempo diminuisce nel tempo a causa della censura a destra e del verificarsi di un evento: lo considereresti nel calcolo del tempo medio di sopravvivenza? Come? Cosa intendi con "la popolazione?" A quale popolazione si stanno generalizzando le persone reclutate nel tuo studio? O intendi qualche concetto statistico di "superpopolazione"? Inference è una grande sfida in questi modelli, perché stimiamo β s ed i loro errori standard, ma bisogno di fare delta-metodo di back-ribalta per ottenere errori standard per i h j , k , e (dal mio lavoro) derivante standard di validità errori per S jh^j,kS^j,k funziona solo sulla carta (non riesco a coperture CI corrette per S j , k nei modelli condizionali).S^j,k

  5. È possibile utilizzare grafici con funzioni a gradino simili a Kaplan-Meier e utilizzare anche grafici lineari verso l'alto (ovvero collegare i punti tra i periodi di tempo con una linea). Dovresti usare quest'ultimo caso solo quando il concetto di "tempo discreto" stesso ammette la possibilità di periodi suddivisi. Puoi anche tracciare / comunicare le stime dell'incidenza cumulativa (che è 1Sj,k ... almeno gli epidemiologi definiranno spesso "incidenza cumulativa" in questo modo, il termine è usato in modo diverso nei modelli di rischio concorrenti. Il termine assorbimento può anche essere utilizzato qui.).


Penso alla domanda 2, OP sta chiedendo del valore previsto dal modello logistico, non delle stime dei coefficienti di regressione. Questo potrebbe essere rilevante
jujae

h^(t)

Isn't the predicted value of a logistic model the probability of success of the binary rv such that no ant-logit is needed. That is ypred=exp(βTx)/(1+exp(βTx)) ?
jujae

Back to the original question 2, the OP asked: "Are the predicted values from the logistic regression model estimates of the hazard function?" I would say yes (if my understanding of predicted value is correct). And you are saying no and give the argument that the estimated coefficients are not the same as hazard estimation. I agree with your statement, they are correct but it is not what OP asked from my understanding.
jujae

And for questions 4, I think OP is asking about the survival probability at each interval k and the average of the estimated S^j(k) is indeed a reasonable estimator for S(k). In your answer, you are first referring to mean survival time which is confusing to me as a reader. Meanwhile, I also believe that the estimator we are discussing is essentially Kaplan-meier, and (for instance) Greenwood's variance estimator for KM can be directly used and I fail to appreciate the difficulties you stated above about the calculation of the variances.
jujae
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.