Come confrontare la sopravvivenza mediana tra i gruppi?


12

Sto esaminando la sopravvivenza mediana usando Kaplan-Meier in diversi stati per un tipo di cancro. Ci sono differenze abbastanza grandi tra gli stati. Come posso confrontare la sopravvivenza mediana tra tutti gli stati e determinare quali sono significativamente diversi dalla sopravvivenza mediana media in tutto il paese?


Potresti dare qualche indicazione su dimensioni del campione, intervallo di tempo,% di sopravvivenza, ecc. In modo da avere un'idea migliore del design del tuo studio?
chl

ci sono valori censurati nei dati - tranne che per i valori più grandi?
ronaf

Ci sono davvero valori censurati nei dati e la popolazione totale è di circa 1500, la sopravvivenza globale mediana è di 18 mesi (intervallo 300-600 giorni) ... il periodo di tempo è il periodo 2000-2007.
Misha,

Risposte:


6

Una cosa da tenere a mente con la curva di sopravvivenza di Kaplan-Meier è che è sostanzialmente descrittiva e non inferenziale . È solo una funzione dei dati, con un modello incredibilmente flessibile che sta dietro. Questo è un punto di forza perché ciò significa che praticamente non ci sono ipotesi che potrebbero essere infrante, ma un punto debole perché è difficile generalizzarlo e che si adatta sia al "rumore" che al "segnale". Se vuoi fare una deduzione, allora devi sostanzialmente introdurre qualcosa di sconosciuto che desideri conoscere.

Ora un modo per confrontare i tempi mediani di sopravvivenza è fare i seguenti presupposti:

  1. Ho una stima del tempo medio di sopravvivenza per ciascuna delle i membri, in curva Kaplan-Meier.tii
  2. Mi aspetto che il vero tempo di sopravvivenza mediana, sia uguale a questa stima. E ( T i | t i ) = t iTiE(Ti|ti)=ti
  3. Sono sicuro al 100% che il vero tempo mediano di sopravvivenza è positivo. Pr(Ti>0)=1

Ora il modo "più conservatore" di usare questi presupposti è il principio della massima entropia, in modo da ottenere:

p(Ti|ti)=Kexp(λTi)

Dove e λ sono scelti in modo tale che il PDF sia normalizzato e il valore atteso sia t i . Ora abbiamo:Kλti

= K [ - e x p ( - λ T i )

1=0p(Ti|ti)dTi=K0exp(λTi)dTi
e ora abbiamo E ( T i ) = 1
=K[exp(λTi)λ]Ti=0Ti==KλK=λ
E(Ti)=1λλ=ti1

E così hai una serie di distribuzioni di probabilità per ogni stato.

p(Ti|ti)=1tiexp(Titi)(i=1,,N)

Che danno una distribuzione di probabilità congiunta di:

p(T1,T2,,TN|t1,t2,,tN)=i=1N1tiexp(Titi)

Ora sembra che tu voglia testare l'ipotesi , dove ¯ t = 1H0:T1=T2==TN=t¯è il tempo medio di sopravvivenza mediano. L'ipotesi alternativa severa da verificare è l'ipotesi "ogni stato è un fiocco di neve unico e bellissimo"HA:T1=t1,...,TN=tNperché questa è l'alternativa più probabile e rappresenta quindi l'informazione persa nel passaggio all'ipotesi più semplice (un test "minimax"). La misura dell'evidenza rispetto all'ipotesi più semplice è data dal rapporto di probabilità:t¯=1Ni=1NtiHA:T1=t1,,TN=tN

O(HA|H0)=p(T1=t1,T2=t2,,TN=tN|t1,t2,,tN)p(T1=t¯,T2=t¯,,TN=t¯|t1,t2,,tN)
=[i=1N1ti]exp(i=1Ntiti)[i=1N1ti]exp(i=1Nt¯ti)=exp(N[t¯tharm1])

Dove

tharm=[1Ni=1Nti1]1t¯

è la media armonica. Si noti che le probabilità favoriranno sempre l'adattamento perfetto, ma non di molto se i tempi di sopravvivenza mediana sono ragionevolmente vicini. Inoltre, questo ti dà un modo diretto per affermare le prove di questo particolare test di ipotesi:

O(HA|H0):1

Combina questo con una regola di decisione, una funzione di perdita, una funzione di utilità, ecc. Che dice quanto sia vantaggioso accettare l'ipotesi più semplice e hai le tue conclusioni!

H0

HS,i:Ti=ti,Tj=T=t¯(i)=1N1jitj

i

  • HAHS,i
  • H0HS,i
  • HS,kki

Ora una cosa che è stata sottovalutata qui sono le correlazioni tra stati: questa struttura presuppone che conoscere il tasso di sopravvivenza mediano in uno stato non dica nulla sul tasso di sopravvivenza mediano in un altro stato. Sebbene ciò possa sembrare "negativo", non è difficile migliorarlo e i calcoli sopra riportati sono buoni risultati iniziali che sono facili da calcolare.

L'aggiunta di connessioni tra stati cambierà i modelli di probabilità e vedrai effettivamente un "raggruppamento" dei tempi di sopravvivenza mediani. Un modo per incorporare correlazioni nell'analisi è di separare i tempi di sopravvivenza reali in due componenti, una "parte comune" o "tendenza" e una "parte individuale":

Ti=T+Ui

Uiσ


(+1) Molto interessante. Il tuo post mi ha anche fatto inserire un commento nella mia risposta.
GaBorgulya,

M1

@ cardinale, le mie scuse - è un errore di battitura. saranno rimosse
probabilityislogic

non sono necessarie scuse. Non ero sicuro di averlo ignorato mentre leggevo o semplicemente mi mancava qualcosa di ovvio.
cardinale

4

Ho pensato di aggiungere a questo argomento che potresti essere interessato alla regressione quantile con la censura. Bottai & Zhang 2010 hanno proposto una "regressione di Laplace" che può fare proprio questo compito, puoi trovare un PDF su questo qui . Esiste un pacchetto per Stata per questo, non è stato ancora tradotto in R sebbene il pacchetto quantreg in R abbia una funzione per la regressione quantile censurata, crq , che potrebbe essere un'opzione.

Penso che l'approccio sia molto interessante e potrebbe essere molto più intuitivo per i pazienti che mettono a rischio i rapporti. Sapendo ad esempio che il 50% del farmaco sopravvive per 2 mesi in più rispetto a quelli che non assumono il farmaco e gli effetti collaterali che ti costringono a rimanere 1-2 mesi in ospedale potrebbero rendere la scelta del trattamento molto più semplice.


Non conosco la "regressione di Laplace", ma per quanto riguarda il tuo secondo paragrafo mi chiedo se lo sto capendo correttamente. Di solito nell'analisi di sopravvivenza (pensando in termini di tempo di fallimento accelerato), diremmo qualcosa come "il 50 ° percentile per il gruppo di farmaci arriva 2 mesi dopo rispetto al 50% per il gruppo di controllo". È questo che intendi o l'output di LR offre un'interpretazione diversa?
gung - Ripristina Monica

@gung: Penso che tu abbia ragione nella tua interpretazione - ha cambiato il testo, meglio? Non ho usato i modelli di regressione, anche se li ho incontrati di recente in un corso. È un'interessante alternativa ai normali modelli Cox che ho usato molto. Anche se probabilmente ho bisogno di dedicare più tempo a digerire l'idea, penso che sia probabilmente più facile per me spiegare ai miei pazienti poiché utilizzo spesso le curve KM per spiegare ai miei pazienti. Le risorse umane richiedono che tu capisca davvero la differenza tra rischi relativi e assoluti - un concetto che può richiedere del tempo per spiegare ...
Max Gordon


Grazie @Misha per il link. L'autore ha una risposta qui: onlinelibrary.wiley.com/doi/10.1002/bimj.201100103/abstract
Max Gordon,

3

Per prima cosa visualizzerei i dati: calcolerei gli intervalli di confidenza e gli errori standard per le sopravvissute mediane in ogni stato e mostrerei gli EC su un terreno forestale, le mediane e i loro SE usando un diagramma ad imbuto.

La "sopravvivenza mediana media in tutto il paese" è una quantità stimata dai dati e pertanto presenta incertezza, pertanto non è possibile considerarla come un valore di riferimento preciso durante i test di significatività. Un'altra difficoltà con l'approccio medio di tutti è che quando si confronta una mediana di stato con essa si sta confrontando la mediana con una quantità che già include quella quantità come componente. Quindi è più facile confrontare ogni stato con tutti gli altri stati combinati. Questo può essere fatto eseguendo un test del registro (o delle sue alternative) per ogni stato.
(Modifica dopo aver letto la risposta di probabilitlogico: il test del log rank confronta la sopravvivenza in due (o più) gruppi, ma non è strettamente la mediana che sta confrontando. Se sei sicuro che è la mediana che vuoi confrontare, puoi fare affidamento sulle sue equazioni o usare il ricampionamento anche qui)

Hai etichettato la tua domanda [confronti multipli], quindi presumo che tu voglia anche regolare (aumentare) i tuoi valori p in modo tale che se vedi almeno un valore p corretto inferiore al 5% potresti concludere che "la sopravvivenza mediana tra gli stati è non uguale "al livello di significatività del 5%. È possibile utilizzare metodi generici e eccessivamente conservativi come Bonferroni, ma lo schema di correzione ottimale prenderà in considerazione le correlazioni dei valori di p. Presumo che tu non voglia integrare nessuna conoscenza a priori nello schema di correzione, quindi discuterò uno schema in cui l'adeguamento sta moltiplicando ciascun valore p per la stessa costante C.

Poiché non so come derivare la formula per ottenere il moltiplicatore C ottimale, utilizzerei il ricampionamento . Sotto l'ipotesi nulla che le caratteristiche di sopravvivenza siano le stesse in tutti gli stati, quindi è possibile permutare le etichette di stato dei casi di cancro e ricalcolare le mediane. Dopo aver ottenuto molti vettori ricampionati dei valori di stato p, troverei numericamente il moltiplicatore C al di sotto del quale meno del 95% dei vettori non include valori p significativi e al di sopra del quale più del 95%. Mentre la gamma appare ampia, aumenterei ripetutamente il numero di campioni di un ordine di grandezza.


Buoni consigli sulla visualizzazione dei dati. (1)
probabilityislogic

@probabilityislogic Grazie! Accolgo con favore anche le critiche, soprattutto se costruttive.
GaBorgulya,

l'unica critica che ho è l'uso dei valori di p, ma questo è più un "chip sulla mia spalla" di qualsiasi altra cosa nella tua risposta - sembra che se userai i valori di p, allora quello che consigli è buono. Semplicemente non penso che usare i valori p sia buono. vedi qui per il mio scambio con @eduardo nei commenti sui valori p.
probabilityislogic
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.