Nell'analisi di sopravvivenza, perché utilizziamo modelli semi-parametrici (rischi proporzionali di Cox) invece di modelli completamente parametrici?


24

Ho studiato il modello dei rischi proporzionali di Cox e questa domanda è stata chiarita nella maggior parte dei testi.

Cox ha proposto di adattare i coefficienti della funzione Hazard usando un metodo di probabilità parziale, ma perché non adattarsi solo ai coefficienti di una funzione di sopravvivenza parametrica usando il metodo della massima verosimiglianza e un modello lineare?

In tutti i casi in cui sono stati censurati dati, è possibile trovare l'area sotto la curva. Ad esempio, se la stima è 380 con deviazione standard di 80 e un campione è censurato> 300, allora c'è una probabilità dell'84% per quel campione nel calcolo della probabilità ipotizzando un errore normale.


Per quanto mi piaccia avere domande scientifiche attuariali qui, devo dire che probabilmente questa domanda otterrà una risposta migliore nel sito statistico, Cross Validated. Puoi richiedere la migrazione di un moderatore.
Graphth

Va bene, non avevo capito che esistesse. Non sono sicuro di come richiedere una migrazione. Per favore, migra?

@Graphth, anche io non mi rendevo conto che ce n'era uno ... Non l'ho trovato nell'elenco "tutti i siti", potresti collegarlo qui? Grazie

Risposte:


27

Se conosci la distribuzione parametrica seguita dai tuoi dati, utilizza un approccio di massima verosimiglianza e la distribuzione ha senso. Il vero vantaggio della regressione dei rischi proporzionali di Cox è che è ancora possibile adattare i modelli di sopravvivenza senza conoscere (o assumere) la distribuzione. Dai un esempio usando la distribuzione normale, ma la maggior parte dei tempi di sopravvivenza (e altri tipi di dati per i quali viene utilizzata la regressione di Cox PH) non si avvicinano a una distribuzione normale. Alcuni possono seguire un log-normal, o un Weibull o altra distribuzione parametrica, e se si è disposti a fare quell'ipotesi l'approccio parametrico della massima verosimiglianza è ottimo. Ma in molti casi del mondo reale non sappiamo quale sia la distribuzione appropriata (o anche un'approssimazione abbastanza vicina). Con la censura e le covariate non possiamo fare un semplice istogramma e dire "che mi sembra una ... distribuzione per me". Quindi è molto utile avere una tecnica che funzioni bene senza bisogno di una distribuzione specifica.

Perché usare il pericolo invece della funzione di distribuzione? Considera la seguente dichiarazione: "Le persone nel gruppo A hanno il doppio delle probabilità di morire all'età di 80 anni rispetto alle persone del gruppo B". Ora ciò potrebbe essere vero perché le persone del gruppo B tendono a vivere più a lungo di quelle del gruppo A, oppure potrebbe essere perché le persone del gruppo B tendono a vivere una vita più breve e la maggior parte di loro è morta molto prima dell'età di 80 anni, dando una probabilità molto piccola di loro muoiono a 80 anni, mentre un numero sufficiente di persone nel gruppo A vive fino a 80 anni che un discreto numero di loro morirà a quell'età dando una probabilità molto più alta di morte a quell'età. Quindi la stessa affermazione potrebbe significare che essere nel gruppo A è meglio o peggio che essere nel gruppo B. Ciò che ha più senso è dire, di quelle persone (in ciascun gruppo) che hanno vissuto fino a 80 anni, quale proporzione morirà prima di compiere 81 anni. Questo è il pericolo (e il pericolo è una funzione della funzione di distribuzione / funzione di sopravvivenza / ecc.). Il pericolo è più facile da lavorare nel modello semi-parametrico e può quindi fornire informazioni sulla distribuzione.


7
Bella risposta. Ciò che rende unico il tempo è che passa in una direzione, e una volta che abbiamo resistito a un periodo ad alto rischio, siamo principalmente interessati ai rischi ora in vigore. Questo è ciò che ci dice la funzione di pericolo.
Frank Harrell,

2
Un altro punto che vale la pena aggiungere è che con i dati censurati, ispezionare i presupposti distributivi può essere molto difficile. Ad esempio, supponiamo che solo il 20% dei soggetti osservi un evento. Cercare di determinare se le code della distribuzione seguono una distribuzione di Weibull non sarà chiaramente possibile! Un modello di Cox-PH evita in qualche modo il problema (ma devi stare molto attento alle ipotesi sui rischi proporzionali se vuoi estrapolare le aree di volte che sono state altamente censurate)
Cliff AB,

16

"Noi" non necessariamente. La gamma di strumenti di analisi della sopravvivenza spazia da modelli completamente non parametrici, come il metodo Kaplan-Meier, a modelli completamente parametrici in cui si specifica la distribuzione del pericolo sottostante. Ognuno ha i suoi vantaggi e svantaggi.

I metodi semi-parametrici, come il modello dei rischi proporzionali di Cox, consentono di evitare di specificare la funzione di rischio sottostante. Questo può essere utile, poiché non sempre conosciamo la funzione di rischio sottostante e in molti casi non ci interessa . Ad esempio, molti studi epidemiologici vogliono sapere "L'esposizione X riduce il tempo fino all'evento Y?" A loro interessa la differenza tra i pazienti che hanno X e che non hanno X. In tal caso, il rischio sottostante non ha molta importanza e il rischio di non specificarlo è peggiore delle conseguenze del non conoscerlo.

Vi sono tuttavia momenti in cui anche questo non è vero. Ho lavorato con modelli completamente parametrici perché il rischio sottostante era interessante.


1
"... e il rischio di specificarlo erroneamente è peggiore delle conseguenze del non conoscerlo." Questo è stato molto utile, grazie.

Potresti dare un esempio di quando il rischio sottostante sarebbe di interesse?
Dan Chaltiel il

1
@DanChaltiel Qualsiasi stima intesa per entrare in un modello matematico o simili sarebbe un esempio: la funzione di rischio sottostante è di particolare interesse.
Fomite
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.