Quali sono i pro e i contro dell'utilizzo del logrank rispetto al metodo Mantel-Haenszel per calcolare il Hazard Ratio nell'analisi di sopravvivenza?


17

Un modo per riassumere il confronto tra due curve di sopravvivenza è calcolare il hazard ratio (HR). Esistono (almeno) due metodi per calcolare questo valore.

  • Metodo Logrank. Come parte dei calcoli di Kaplan-Meier, calcola il numero di eventi osservati (decessi, di solito) in ciascun gruppo ( e ) e il numero di eventi attesi ipotizzando un'ipotesi nulla di nessuna differenza di sopravvivenza ( e ) . Il rapporto di rischio è quindi: OaObEaEb
    HR=(Oa/Ea)(Ob/Eb)
  • Metodo Mantel-Haenszel. Prima calcola V, che è la somma delle varianze ipergeometriche in ciascun punto temporale. Quindi calcola il hazard ratio come: Ho ottenuto entrambe queste equazioni dal capitolo 3 di Machin, Cheung e Parmar, Survival Analysis . Quel libro afferma che i due metodi di solito danno metodi molto simili, e in effetti è così per l'esempio nel libro.
    HR=exp((OaEa)V)

Qualcuno mi ha inviato un esempio in cui i due metodi differiscono di un fattore tre. In questo esempio particolare, è ovvio che la stima logrank è ragionevole e la stima Mantel-Haenszel è lontana. La mia domanda è se qualcuno ha qualche consiglio generale per quando è meglio scegliere la stima logrank del rapporto di rischio e quando è meglio scegliere la stima di Mantel-Haenszel? Ha a che fare con la dimensione del campione? Numero di legami? Rapporto tra le dimensioni del campione?


In che modo queste stime sono correlate a quella fornita dalla regressione di Cox? Dev'essere il gold standard per la stima delle risorse umane.
Aniko,

Il modello Cox incorpora le covariate. I metodi Kaplan-Meier, Nelson-Aalen, Mantel-Haenszel modellano il rischio in funzione solo dell'età.
shabbychef,

@shabbychef: con Cox PH, usa una singola covariata binaria, cioè codificata 0/1 per gruppi di riferimento / confronto, quindi exp (beta) = HR.
Ars

Il log-rank è un test più potente di Cox PH quando viene assunta l'assunzione proporzionale di pericoli. Quindi, con una singola covariata a 2 livelli, è preferibile un test log-rank o Mantel-Haenszel.
Thylacoleo,

vedi sotto per la risposta ...
Thylacoleo,

Risposte:


11

Penso di aver capito la risposta (alla mia domanda). Se l'assunzione di rischi proporzionali è vera, i due metodi forniscono stime simili del rapporto di rischio. La discrepanza che ho riscontrato in un esempio particolare, penso ora, è dovuta al fatto che tale ipotesi è dubbia.

Se l'assunzione di rischi proporzionali è vera, allora un grafico di log (tempo) vs. log (-log (St)) (dove St è la sopravvivenza proporzionale al momento t) dovrebbe mostrare due linee parallele. Di seguito è riportato il grafico creato dal set di dati del problema. Sembra tutt'altro che lineare. Se l'assunzione di pericoli proporzionali non è valida, il concetto di un rapporto di pericolo non ha senso e quindi non importa quale metodo viene utilizzato per calcolare il rapporto di rischio.

testo alternativo

Mi chiedo se la discrepanza tra le stime logrank e Mantel-Haenszel del rapporto di rischio possa essere utilizzata come metodo per testare l'assunzione di rischi proporzionali?


7

Se non sbaglio, lo stimatore log-rank a cui fai riferimento è anche noto come stimatore Pike. Credo che sia generalmente raccomandato per le risorse umane <3 perché mostra meno distorsioni in tale intervallo. Il seguente documento può essere interessante (si noti che l'articolo si riferisce ad esso come O / E):

[...] Il metodo O / E è distorto ma, all'interno dell'intervallo di valori del rapporto tra i tassi di rischio di interesse negli studi clinici, è più efficiente in termini di errore quadratico medio rispetto a LMC o Mantel-Haenszel metodo per tutti tranne le prove più grandi. Il metodo Mantel-Haenszel è minimamente distorto, fornisce risposte molto simili a quelle ottenute usando la LMC e può essere usato per fornire intervalli di confidenza approssimativi soddisfacenti.


Avendo dato una breve occhiata a quel documento, non sono sicuro che le stime che considerano siano le stesse di quelle nelle equazioni dell'interrogatore. Sono d'accordo con i commenti sotto la domanda - forse nel 1981 i metodi approssimativi erano utili ma in questi giorni non c'è un motivo ovvio per non usare la regressione di Cox.
Onestop,

@onestop: hmm, pensi alla definizione di O / E == LR con il registro dimenticato sopra? Sono d'accordo con quello che dici su Cox PH: non è questa la domanda a cui stavo cercando di rispondere, ma il tuo consiglio è migliore in un contesto più ampio.
Ars

Bernstein et. al. mostra alcuni motivi (n piccoli, legami) che rendono i due metodi inaccurati o diversi. Ma tutte le discrepanze che hanno mostrato sono piccole. Quindi non credo che nulla in quel documento spieghi la triplice discrepanza che ho visto che ha portato a questa domanda. Vedi sotto per la risposta che mi è venuta in mente.
Harvey Motulsky,

7

In realtà ci sono molti altri metodi e la scelta spesso dipende dal fatto che tu sia più interessato a cercare differenze precoci, differenze successive o - come per il test del log-rank e il test di Mantel-Haenszel - dare lo stesso peso a tutti i punti temporali.

Alla domanda a portata di mano. Il test log-rank è in realtà una forma del test di Mantel-Haenszel applicato ai dati di sopravvivenza. Il test di Mantel-Haenszel viene solitamente utilizzato per verificare l'indipendenza in tabelle di contingenza stratificate.

Se proviamo ad applicare il test MH ai dati di sopravvivenza, possiamo iniziare supponendo che gli eventi in ciascun momento di fallimento siano indipendenti. Quindi ci stratifichiamo per tempo di fallimento. Utilizziamo i metodi MH per rendere ogni tempo di guasto uno strato. Non sorprende che spesso diano lo stesso risultato.

L'eccezione si verifica quando si verificano più di un evento contemporaneamente: più morti esattamente nello stesso momento. Non riesco a ricordare come il trattamento differisca allora. Penso che il test log-rank sia in media sui possibili ordinamenti dei tempi di fallimento associati.

Quindi il test log-rank è il test MH per i dati di sopravvivenza e può gestire i legami. Non ho mai usato il test MH per i dati di sopravvivenza.


3

Pensavo di essermi imbattuto in un sito Web e in un riferimento che si occupa esattamente di questa domanda:

http://www.graphpad.com/faq/viewfaq.cfm?faq=1226 Inizia da "I due metodi a confronto".

Il sito fa riferimento al documento di Berstein ars collegato (sopra):

http://www.jstor.org/stable/2530564?seq=1

Il sito riassume bene i risultati di Berstein et al, quindi lo citerò:

I due di solito danno risultati identici (o quasi identici). Ma i risultati possono differire quando muoiono più soggetti contemporaneamente o quando il hazard ratio è lontano da 1,0.

Bernsetin e colleghi hanno analizzato i dati simulati con entrambi i metodi (1). In tutte le loro simulazioni, l'assunzione di rischi proporzionali era vera. I due metodi hanno dato valori molto simili. Il metodo logrank (che chiamano metodo O / E) riporta valori che sono più vicini a 1,0 del vero Hazard Ratio, specialmente quando il hazard ratio è grande o la dimensione del campione è grande.

Quando ci sono legami, entrambi i metodi sono meno precisi. I metodi logrank tendono a segnalare rapporti di rischio ancora più vicini a 1,0 (quindi il rapporto di rischio riportato è troppo piccolo quando il rapporto di rischio è maggiore di 1,0 e troppo grande quando il rapporto di rischio è inferiore a 1,0). Il metodo Mantel-Haenszel, al contrario, riporta rapporti di pericolo che sono più lontani da 1,0 (quindi il rapporto di pericolo riportato è troppo grande quando il rapporto di pericolo è maggiore di 1,0 e troppo piccolo quando il rapporto di pericolo è inferiore a 1,0).

Non hanno testato i due metodi con dati simulati in cui l'assunzione di rischi proporzionali non è vera. Ho visto un set di dati in cui le due stime delle risorse umane erano molto diverse (per un fattore tre) e l'assunzione di rischi proporzionali era dubbia per quei dati. Sembra che il metodo Mantel-Haenszel dia più peso alle differenze di rischio nei momenti di ritardo, mentre il metodo logrank dà lo stesso peso ovunque (ma non l'ho esplorato in dettaglio). Se vedete valori HR molto diversi con i due metodi, pensate se l'assunzione di rischi proporzionali è ragionevole. Se tale ipotesi non è ragionevole, allora ovviamente l'intero concetto di un singolo rapporto di rischio che descrive l'intera curva non è significativo

Il sito fa anche riferimento al set di dati in cui "le due stime delle risorse umane erano molto diverse (per un fattore tre)" e suggeriscono che l'assunzione di PH è una considerazione chiave.

Poi ho pensato: "Chi ha creato il sito?" Dopo un po 'di ricerche ho scoperto che era Harvey Motulsky. Quindi Harvey sono riuscito a fare riferimento a te nel rispondere alla tua domanda. Sei diventato l'autorità!

Il "set di dati problematico" è un set di dati disponibile pubblicamente?


Ho trovato la risposta due giorni fa e l'ho pubblicata qui come nuova risposta. Inoltre ho ampliato e aggiornato la pagina Web su graphpad.com che hai trovato. Ho appena modificato di nuovo quella pagina per includere un collegamento a un file Excel con i dati del problema ( graphpad.com/faq/file/1226.xls ). Non potrei farlo finché non avrò ottenuto il permesso dal ragazzo che ha generato i dati (vuole essere anonimo e i dati sono vagamente etichettati).
Harvey Motulsky,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.