Le curve di Kaplan-Meier sembrano dire diversamente dalla regressione di Cox


9

In R, sto facendo analisi dei dati di sopravvivenza dei malati di cancro.

Ho letto cose molto utili sull'analisi di sopravvivenza in CrossValidated e in altri luoghi e penso di aver capito come interpretare i risultati della regressione di Cox. Tuttavia, un risultato mi infastidisce ancora ...

Sto confrontando la sopravvivenza con il genere. Le curve di Kaplan-Meier sono chiaramente a favore delle pazienti di sesso femminile (ho verificato più volte che la legenda che ho aggiunto è corretta, la paziente con la massima sopravvivenza, 4856 giorni, è davvero una donna): inserisci qui la descrizione dell'immagine

E la regressione di Cox sta tornando:

Call:
coxph(formula = survival ~ gender, data = Clinical)

  n= 348, number of events= 154 

              coef exp(coef) se(coef)      z Pr(>|z|)  
gendermale -0.3707    0.6903   0.1758 -2.109    0.035 *
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

           exp(coef) exp(-coef) lower .95 upper .95
gendermale    0.6903      1.449    0.4891    0.9742

Concordance= 0.555  (se = 0.019 )
Rsquare= 0.012   (max possible= 0.989 )
Likelihood ratio test= 4.23  on 1 df,   p=0.03982
Wald test            = 4.45  on 1 df,   p=0.03499
Score (logrank) test = 4.5  on 1 df,   p=0.03396

Quindi Hazard Ratio (HR) per pazienti maschi ( gendermale) è 0,6903. Il modo in cui lo interpreterei (senza guardare la curva di Kaplan-Meier) è: poiché l'HR è <1, essere un paziente di genere maschile è protettivo. O più precisamente, una paziente ha una probabilità 1 / 0.6903 = exp (-coef) = 1.449 più probabilità di morire in un momento specifico rispetto a un maschio.

Ma questo non sembra quello che dicono le curve di Kaplan-Meier! Cosa c'è di sbagliato nella mia interpretazione?


3
Dalla tua curva KM, sembra che l'assunzione di PH della regressione di Cox non sia valida.
Deep North,

Vedo. Non ci ho mai provato prima! Graficamente, significa che le mie curve Kaplan-Meier dovrebbero essere parallele in modo da poter usare tranquillamente Cox, giusto? Sembra più o meno OK prima di ~ 2200 giorni. Va bene dare un'occhiata ai risultati di Cox per tutti i dati un po 'prima dell'intersezione?
francoiskroll,

4
NB Sono le curve , dove è la funzione di sopravvivenza stimata per il gruppo , che dovrebbe essere parallela sotto rischi proporzionali. Come sottolineato da @IWS, gli intervalli di confidenza saranno molto ampi per il gruppo femminile dopo circa 3000 giorni (ce ne sono solo due che superano quel punto?) Quindi l'assunzione di PH potrebbe non essere troppo male. S i ( t ) iloglogS^i(t)S^i(t)i
Scortchi - Ripristina Monica

@DeepNorth: non vedo davvero prove evidenti contro i rischi proporzionali. Sì, le curve si sovrappongono tecnicamente ... ma questo è sulle code estreme.
Cliff AB,

Per integrare le altre risposte e commenti, confrontare la sopravvivenza mediana o la sopravvivenza a cinque anni per i maschi e per le femmine. Vi è un chiaro vantaggio per i maschi in questi dati in accordo con l'analisi di Cox PH.
Itamar,

Risposte:


12

Questo è un ottimo esempio di pericoli non proporzionali O l'effetto di "esaurimento" nell'analisi della sopravvivenza. Proverò a spiegare.

Dapprima dai un'occhiata alla tua curva Kaplan-Meier (KM): puoi vedere nella prima parte (fino a circa 3000 giorni) la percentuale di maschi ancora vivi nella popolazione a rischio al momento t è maggiore della proporzione di femmine (ovvero la linea blu è "più alta" di quella rossa). Ciò significa che in effetti il ​​genere maschile è "protettivo" per l'evento (morte) studiato. Di conseguenza, il rapporto di rischio dovrebbe essere compreso tra 0 e 1 (e il coefficiente dovrebbe essere negativo).

Tuttavia, dopo il giorno 3000, la linea rossa è più alta! Ciò suggerirebbe davvero il contrario. Basandosi solo su questo grafico KM, ciò suggerirebbe inoltre un rischio non proporzionale. In questo caso "non proporzionale" significa che l'effetto della tua variabile indipendente (genere) non è costante nel tempo. In altre parole, il rapporto di pericolosità può cambiare con il passare del tempo. Come spiegato sopra, questo sembra il caso. Il modello Cox a rischio proporzionale regolare non supporta tali effetti. In realtà, uno dei presupposti principali è che i pericoli sono proporzionali! Ora puoi effettivamente modellare anche pericoli non proporzionali, ma questo va oltre lo scopo di questa risposta.

C'è un ulteriore commento da fare: questa differenza potrebbe essere dovuta al fatto che i pericoli reali sono non proporzionali oil fatto che vi sia molta varianza nelle stime di coda delle curve KM. Si noti che a questo punto il gruppo totale di 348 pazienti sarà sceso a una popolazione molto piccola ancora a rischio. Come puoi vedere, entrambi i gruppi di genere hanno pazienti che stanno vivendo l'evento e che i pazienti vengono censurati (le linee verticali). Man mano che la popolazione a rischio diminuisce, le stime di sopravvivenza diventeranno meno certe. Se avessi tracciato degli intervalli di confidenza al 95% attorno alle linee KM, vedresti aumentare la larghezza dell'intervallo di confidenza. Questo è importante anche per la stima dei pericoli. In parole povere, poiché la popolazione a rischio e la quantità di eventi nell'ultimo periodo del tuo studio è bassa, questo periodo contribuirà meno alle stime nel tuo modello iniziale di cox.

Infine, ciò spiegherebbe perché il pericolo (assunto nel tempo costante) sia più in linea con la prima parte del KM, anziché con l'endpoint finale.

EDIT: vedi il commento puntuale di @ Scrotchi alla domanda originale: Come affermato, l'effetto di numeri bassi nel periodo finale dello studio è che le stime dei pericoli in quei punti nel tempo sono incerte. Di conseguenza, sei anche meno sicuro che l'apparente violazione dell'assunzione di rischi proporzionali non sia dovuta al caso. Come afferma @ scrotchi, il presupposto del PH potrebbe non essere così male.


1
(-1) Le code si incrociano alle estremità estreme, dove abbiamo pochissimi dati. In effetti, l'evidenza di "pericoli non proporzionali" si basa solo su due osservazioni (vale a dire quando t> 2800, nella coorte femminile erano rimasti solo due soggetti e, a parte ciò, l'ultimo evento precedente a quello nel gruppo era intorno t = 2100)
Cliff AB,

2
@CliffAB Grazie per il feedback Cliff AB. Sono un po 'confuso, poiché la tua osservazione è esattamente quello che stavo cercando di dire. Lo ammetto: avrebbe potuto essere un po 'più corto. Il -1 è un po 'duro però:' (
IWS

2
forse è stato un po 'cattivo con me. Il mio unico punto è che quando guardo questo, non vedo necessariamente un buon esempio di pericoli non proporzionali, ma piuttosto pochi dati sulle code. Vedo che la prima frase è stata rivista (penso che a meno che non mi sia sfuggita la prima volta?) Per risolvere il problema, quindi ora il (-1) è sicuramente non richiesto.
Cliff AB,

1
Oops, sembra che mi sia perso la prima volta. Scusate!
Cliff AB,

Nessun problema, al massimo concordiamo sulla risposta: D
IWS

5

Sei confuso sulla natura del tuo output. Questi dati dicono: se sei un maschio hai maggiori probabilità di vivere più a lungo di una femmina; Le femmine hanno una PEGGIORE sopravvivenza rispetto ai maschi. Ciò si riflette nel risultato della regressione poiché l'effetto per essere MASCHIO è avere un rapporto di rischio logaritmico negativo, ad esempio i maschi hanno un rischio inferiore rispetto alle femmine. Nella maggior parte dei casi (quando le curve "passano"), la curva di sopravvivenza maschile è maggiore di quella delle femmine, i risultati del modello Cox e il grafico concordano molto bene. Le curve KM lo confermano così come l'output del modello di regressione. La "croce" è insignificante.

Le curve KM si comportano male nelle code, specialmente quando si avvicinano allo 0% e / o si assottigliano fortemente. L'asse Y è la proporzione sopravvissuta. Con relativamente pochi che sopravvivono a lungo nello studio e pochi che muoiono in quel momento, l'affidabilità delle stime è intuitivamente e graficamente terribile. Noto, ad esempio, che ci sono visibilmente meno femmine nella tua coorte rispetto ai maschi e che dopo 2.800 giorni, ci sono meno di 10 femmine rimaste nella coorte, come evidenziato dai passaggi nella curva di sopravvivenza e dalla mancanza di eventi censurati.

Come nota interessante, poiché le analisi di sopravvivenza che utilizzano curve KM, test di log rank e modelli di Cox utilizzano un tempo di sopravvivenza classificato , la durata effettiva della sopravvivenza è alquanto irrilevante. La tua femmina sopravvissuta più a lungo potrebbe, infatti, sopravvivere per altri 100 anni e non avrebbe alcun impatto sulle analisi. Questo perché la funzione di rischio di base (non avendo osservato alcun evento negli ultimi 13 anni) presumerebbe che non ci fosse alcun rischio di morte per i prossimi 87 anni da quando nessuno morì allora.

Se si desidera che un HR robusto ottenga CI e valori p corretti per il 95%, specificare robust=TRUEin Cox-PH per ottenere errori sandwich standard. In quel caso, l'HR è un'AR media media nel tempo che confronta i maschi con le femmine in tutti i momenti di fallimento.


Per chiarire: nel diagramma KM, i maschi hanno una migliore sopravvivenza fino a circa 2700 giorni. Successivamente, le donne hanno una migliore sopravvivenza. Ma quella coda non è precisa perché ci sono così pochi dati là fuori. Puoi vedere che due passaggi nella curva KM portano la sopravvivenza femminile da circa il 35% allo 0%, quindi è molto probabile che siano due persone. Sarebbe utile tracciare le curve KM con bande di confidenza. Quindi immagino che vedresti una separazione netta fino a circa 2000 giorni e poi si sovrapporranno.
Harvey Motulsky,

2
@HarveyMotulsky vero, ma le code dei KM sono molto inaffidabili. Se OP disegnasse gli EC, si sovrapporranno fortemente, quindi inferenzialmente diremmo che la sopravvivenza era probabilmente equivoca dopo 2.700 giorni.
AdamO,

Esattamente il mio punto. I dati mostrano chiaramente che i maschi (in questa situazione, qualunque essa sia) hanno una migliore sopravvivenza almeno per i primi 2000+ giorni.
Harvey Motulsky,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.