Pensavo di essermi imbattuto in un sito Web e in un riferimento che si occupa esattamente di questa domanda:
http://www.graphpad.com/faq/viewfaq.cfm?faq=1226
Inizia da "I due metodi a confronto".
Il sito fa riferimento al documento di Berstein ars collegato (sopra):
http://www.jstor.org/stable/2530564?seq=1
Il sito riassume bene i risultati di Berstein et al, quindi lo citerò:
I due di solito danno risultati identici (o quasi identici). Ma i risultati possono differire quando muoiono più soggetti contemporaneamente o quando il hazard ratio è lontano da 1,0.
Bernsetin e colleghi hanno analizzato i dati simulati con entrambi i metodi (1). In tutte le loro simulazioni, l'assunzione di rischi proporzionali era vera. I due metodi hanno dato valori molto simili. Il metodo logrank (che chiamano metodo O / E) riporta valori che sono più vicini a 1,0 del vero Hazard Ratio, specialmente quando il hazard ratio è grande o la dimensione del campione è grande.
Quando ci sono legami, entrambi i metodi sono meno precisi. I metodi logrank tendono a segnalare rapporti di rischio ancora più vicini a 1,0 (quindi il rapporto di rischio riportato è troppo piccolo quando il rapporto di rischio è maggiore di 1,0 e troppo grande quando il rapporto di rischio è inferiore a 1,0). Il metodo Mantel-Haenszel, al contrario, riporta rapporti di pericolo che sono più lontani da 1,0 (quindi il rapporto di pericolo riportato è troppo grande quando il rapporto di pericolo è maggiore di 1,0 e troppo piccolo quando il rapporto di pericolo è inferiore a 1,0).
Non hanno testato i due metodi con dati simulati in cui l'assunzione di rischi proporzionali non è vera. Ho visto un set di dati in cui le due stime delle risorse umane erano molto diverse (per un fattore tre) e l'assunzione di rischi proporzionali era dubbia per quei dati. Sembra che il metodo Mantel-Haenszel dia più peso alle differenze di rischio nei momenti di ritardo, mentre il metodo logrank dà lo stesso peso ovunque (ma non l'ho esplorato in dettaglio). Se vedete valori HR molto diversi con i due metodi, pensate se l'assunzione di rischi proporzionali è ragionevole. Se tale ipotesi non è ragionevole, allora ovviamente l'intero concetto di un singolo rapporto di rischio che descrive l'intera curva non è significativo
Il sito fa anche riferimento al set di dati in cui "le due stime delle risorse umane erano molto diverse (per un fattore tre)" e suggeriscono che l'assunzione di PH è una considerazione chiave.
Poi ho pensato: "Chi ha creato il sito?" Dopo un po 'di ricerche ho scoperto che era Harvey Motulsky. Quindi Harvey sono riuscito a fare riferimento a te nel rispondere alla tua domanda. Sei diventato l'autorità!
Il "set di dati problematico" è un set di dati disponibile pubblicamente?