Sto tentando di eseguire un'analisi discreta della sopravvivenza nel tempo usando un modello di regressione logistica e non sono sicuro di aver compreso completamente il processo. Apprezzerei molto l'assistenza con alcune domande di base.
Ecco la configurazione:
Sto esaminando l'adesione a un gruppo entro un periodo di cinque anni. Ogni membro ha un record mensile di appartenenza per ogni mese in cui quel membro fa parte del gruppo. Sto prendendo in considerazione tutti i membri la cui appartenenza è iniziata durante la finestra quinquennale (per evitare problemi di "censura di sinistra" con i membri che si sono uniti in precedenza). Ogni record verrà indicizzato in base al tempo, con l'ora uno il mese in cui il membro ha aderito. Quindi, un membro che rimane per due anni e mezzo avrà trenta record mensili, numerati da uno a trenta. Ad ogni record verrà inoltre fornita una variabile binaria, che avrà un valore di uno per l'ultimo mese di appartenenza e zero altrimenti; un valore di uno per la variabile binaria indica l'evento in cui il membro ha lasciato il gruppo. Per ogni membro la cui appartenenza continua oltre la finestra di analisi quinquennale,
Quindi, il modello di regressione logistica è costruito per prevedere i valori della variabile di evento binario. Fin qui tutto bene. Uno dei modi tipici per valutare un modello predittivo binario è misurare l'ascensore su un campione di controllo. Per il modello di regressione logistica che ho creato per prevedere l'evento di fine appartenenza, ho calcolato l'ascensore su un set di dati di controllo con un rapporto cinque a uno tra non eventi ed eventi. Ho classificato i valori previsti in decili. Il decile con i valori più alti previsti ne contiene il settanta percento, un aumento di oltre quattro. I primi due decili combinati contengono il sessantacinque percento di tutti quelli presenti nell'attesa. In alcuni contesti questo sarebbe considerato un modello predittivo abbastanza decente, ma mi chiedo se sia abbastanza buono per effettuare un'analisi di sopravvivenza.
Sia la funzione di rischio per l'individuo nel mese e sia la probabilità che l'individuo sopravviva durante il mese .
Ecco le mie domande fondamentali:
La funzione di rischio discreto, , è la probabilità condizionale di non sopravvivenza (lasciare il gruppo) in ogni mese?
I valori previsti sono dalle stime del modello di regressione logistica della funzione di pericolo? (ovvero, uguale al valore previsto del modello per l'individuo j nel mese k , oppure è necessario fare qualcosa in più per ottenere stime della funzione di rischio?)
La probabilità di sopravvivenza fino al mese q per l'individuo uguale al prodotto di uno meno la funzione di rischio dal mese uno fino a q , ovvero S [ j , q ] = ( 1 - h [ j , 1 ] ) ⋅ ( 1 - h [ j , 2 ] ) ⋅ … ⋅ ( 1 - h [ j , q ] ) ?
Il valore medio di su tutti gli individui j per ogni volta k è una stima ragionevole della popolazione media probabilità di sopravvivenza?
Un diagramma della popolazione complessiva dovrebbe significare che la probabilità di sopravvivenza per mese dovrebbe assomigliare al grafico mensile Kaplan-Meier?
Se la risposta a una di queste domande è negativa, allora ho un grave fraintendimento e potrei davvero usare un po 'di assistenza / spiegazione. Inoltre, esiste una regola empirica per quanto deve essere buono il modello predittivo binario per produrre un profilo di sopravvivenza accurato?