La struttura dei dati e la funzione richiedono dati di eventi ricorrenti con variabili dipendenti dal tempo


9

Sto tentando di stimare l'effetto di 2 farmaci ( drug1, drug2) sulla probabilità di caduta di un paziente ( event). I pazienti possono cadere più di una volta e possono essere assunti o rimossi dai farmaci in qualsiasi momento.

La mia domanda è come i dati dovrebbero essere strutturati in relazione al periodo di tempo (giorni), in particolare se è necessario sovrapporsi tra i giorni. Ci sono due ragioni per cui penso che la mia struttura sia sbagliata, la prima è apparentemente errata N. Ricevo anche alcuni errori in cui il periodo di tempo è un singolo giorno (cioè time1=4, time2=4) e non sono sicuro di come debbano essere codificati. L'ora di inizio delle voci successive deve essere l'ora di fine della voce precedente? L'ho provato in entrambi i modi (con e senza sovrapposizione) e pur avendo la sovrapposizione elimina l'avviso, Nè ancora errato.

Warning message:
In Surv(time = c(0, 2, 7, 15, 20, 0, 18, 27, 32, 35, 39, 46, 53,  :
  Stop time must be > start time, NA created

In questo momento ho i dati impostati in cui l'inizio della voce successiva è il giorno successivo. I pazienti unici sono identificati dal loro chart numbers.

Time1    Time2    Drug1    Drug2   Event    ChartNo
    0        2        1        0       0        123
    3       10        1        1       1        123
   11       14        1        1       1        123
    0       11        0        1       0        345
    0       19        1        0       1        678
    0        4        0        1       0        900
    5       18        1        1       0        900

Il paziente 123 era in terapia1 all'inizio del giorno 2, dopo di che aveva aggiunto la droga2. Sono passati dal 3 ° al 10 ° giorno su entrambi i farmaci prima di cadere la prima volta, quindi sono caduti una seconda volta il 14 ° giorno mentre erano ancora su entrambi i farmaci. Il paziente 345 è andato 11 giorni con drug2 senza cadere (poi è stato censurato), ecc.

La stima effettiva è simile alla seguente:

S <- Srv(time=time1, time2=time2, event=event)
cox.rms <- cph(S ~ Drug1 + Drug2 + cluster(ChartNo), surv=T)

La mia preoccupazione principale è che il rapporto nper la mia analisi sia 2017(il numero di righe nei dati), quando in realtà ho solo 314pazienti unici. Non sono sicuro che questo sia normale o il risultato di qualche errore che ho fatto lungo la strada.

> cox.rms$n
Status
No Event    Event 
    1884      133 

Lo stesso vale quando si utilizza coxph()dal pacchetto di sopravvivenza.

 n= 2017, number of events= 133

Il numero di eventi è corretto tuttavia.

Questo post sembra averlo impostato con la "sovrapposizione" che ho descritto, ma non sono sicuro del N, e non sembrano raggrupparsi ID.


Il +cluster(ChartNo)termine dovrebbe occuparsi delle osservazioni ripetute concernenti. Un approccio alternativo sarebbe quello di aggiungere + (1|subject)un'analisi coxme :: coxme.
DWin

Risposte:


1

La formattazione dei dati è corretta.

Hai più record per paziente a causa di eventi ricorrenti e la complessità aggiunta del farmaco è una covariata che varia nel tempo. L'output stampato utilizzando headè utile per comprendere questi dati.

L'approccio tipico all'analisi degli eventi ricorrenti, nonché delle covariate variabili nel tempo, è la formattazione dei dati in un formato "lungo" in cui ogni riga rappresenta un intervallo di osservazioni rischio-covariata. Ad esempio, vediamo che il paziente 123 è in terapia con Drug1 da solo 0 di volta in volta 2, quindi cambia per prendere sia Drug 1 che Drug 2 dal tempo 3. A quel punto, non avevano sperimentato una caduta, quindi la loro osservazione da 0-2 è censurato a quel punto perché non sappiamo per quanto tempo sarebbe arrivata la loro caduta se avessero continuato a prendere il Drug 1 da solo. Al momento 3 vengono reinseriti nella coorte codificati come pazienti che assumono entrambi i farmaci per 7 unità di tempo dopo le quali sperimentano la loro prima caduta. Sperimentano una seconda caduta sulla stessa combinazione di farmaci solo dopo 4 unità di tempo.

Il numero di record non è un utile riepilogo dei dati di coorte. Non sorprende che il numero di file sia molto più grande del numero di pazienti. Invece, sommare i tempi dall'inizio alla fine e registrarlo come una quantità di persona a rischio. Il denominatore di coorte è utile per comprendere l'incidenza. È utile anche riepilogare il numero non elaborato di pazienti, ma tenere presente che i dati sono in formato "lungo", quindi inferiore al numero di righe nel set di dati.

Per l'errore, penso che potrebbe essere necessario aggiungere 1 unità alla data di "arresto". Se il paziente 123 prende il farmaco 1 per i giorni 0, 1 e 2 e quindi inizia il farmaco 2 il giorno 3, allora hanno sperimentato 3 giorni a rischio di caduta del farmaco 1. Tuttavia, 2-0 = 2 e non è corretto denominatore.

Ciò che l'argomento "cluster" fa (in genere) è imporre una fragilità, che è un tipo di intercettazione casuale che spiega le differenze di rischio proporzionali attribuibili a diversi fattori di rischio non misurati. Non conduco spesso analisi con fragilità. È possibile omettere il comando "cluster" e interpretare i risultati come rapporti di incidenza. È possibile adattare alternativamente il modello cox per il tempo fino alla prima caduta in tutti i pazienti e interpretare i rapporti di rischio come rapporti di rischio. Penso che il risultato della fragilità dovrebbe cadere da qualche parte tra questi due, e non sono mai stato del tutto chiaro quale dovrebbe essere l'interpretazione.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.