Stima ML della distribuzione esponenziale (con dati censurati)


9

In Survival Analysis, si assume che il tempo di sopravvivenza di un rv sia distribuito esponenzialmente. Considerando ora che ho "esiti" di di iid rv . Solo una parte di questi risultati è in realtà "pienamente realizzata", vale a dire le restanti osservazioni sono ancora "vive".x 1 , , x nXix1,,xnXi

Se volessi eseguire una stima ML per il parametro rate della distribuzione, come posso utilizzare le osservazioni non realizzate in modo coerente / appropriato? Credo che contengano ancora informazioni utili per la stima.λ

Qualcuno potrebbe guidarmi alla letteratura su questo argomento? Sono sicuro che esiste. Tuttavia, ho difficoltà a trovare buone parole chiave / termini di ricerca per l'argomento.


3
Quindi stai dicendo che dalle variabili casuali di cui hai una misurazione, diciamo che osservazioni rappresentano lunghezze di vita "finalizzate" (perché le variabili casuali associate erano "morte" al momento della misurazione), mentre il resto osservazioni sono lunghezze di sopravvivenza di variabili casuali che erano "ancora vive" al momento della misurazione? ( )n 1 < n n 2 < n n 1 + n 2 = nnn1<nn2<nn1+n2=n
Alecos Papadopoulos,

1
questo è un modello troncato, le variabili casuali "vive" vengono troncate al momento dell'arresto dell'osservazione.
Xi'an,

1
Dai un'occhiata ai modelli Tobit per i dati troncati e le relative fonti (ad es. Qui ).
Richard Hardy,

2
Sembra che tu abbia dati censurati, come le vite, in cui alcune persone sono morte, ma alcuni sono ancora vivi, talmente che sai solo che, diciamo, per qualche costante nota . t ixi>titi
kjetil b halvorsen,

3
Fai attenzione alla differenza a volte sottile tra le due situazioni. Non è raro che il troncamento venga confuso per la censura e viceversa.
Alecos Papadopoulos,

Risposte:


17

Puoi comunque stimare i parametri utilizzando direttamente la probabilità. Lascia che le osservazioni siano con la distribuzione esponenziale con rate e sconosciuta. La funzione di densità è , funzione di distribuzione cumulativa e funzione di coda . Supponiamo che le prime osservazioni siano pienamente osservate, mentre per sappiamo solo che per alcune costanti positive note λ > 0 f ( x ; λ ) = λ e - λ x F ( x ; λ ) = 1 - e - λ x G ( x ; λ ) = 1 - F ( x ; λ ) = e - λ x r x r + 1 ,x1,,xnλ>0f(x;λ)=λeλxF(x;λ)=1eλxG(x;λ)=1F(x;λ)=eλxrx j > t j t j P ( X j > t j ) = G ( t j ; λ ) L ( λ ) = r i = 1 f ( x i ; λ ) n i = r + 1 G ( t j ; λ ) l (xr+1,,xnxj>tjtj. Come sempre, la probabilità è la "probabilità dei dati osservati", per le osservazioni censurate, che è data da , quindi la funzione di verosimiglianza completa è La funzione loglikelihood diventa quindi che ha la stessa forma del loglikelihood per il solito caso pienamente osservato, tranne dal primo termine in luogo di . Scrivendo per la media delle osservazioni e dei tempi di censura, diventa lo stimatore della massima verosimiglianza diP(Xj>tj)=G(tj;λ)

L(λ)=i=1rf(xi;λ)i=r+1nG(tj;λ)
l(λ)=rlogλλ(x1++xr+tr+1++tn)
rlogλnlogλTλλ^=rnT , che tu stesso puoi confrontare con il caso pienamente osservato.
 EDIT   

Per provare a rispondere alla domanda nei commenti: se tutte le osservazioni sono state censurate, cioè non abbiamo aspettato abbastanza per osservare un evento (morte), cosa possiamo fare? In tal caso, , quindi il loglikelihood diventa ovvero diminuisce lineare in . Quindi il massimo deve essere per ! Ma zero non è un valore valido per il parametro rate poiché non corrisponde a nessuna distribuzione esponenziale. Dobbiamo concludere che in questo caso non esiste lo stimatore della massima verosimiglianza! Forse si potrebbe provare a costruire una sorta di intervallo di confidenza perr=0

l(λ)=nTλ
λλ=0λλbasato su quella funzione di licenza? Per quello, guarda sotto.

Ma, in ogni caso, la vera conclusione dei dati in quel caso è che dovremmo aspettare più tempo prima di ricevere alcuni eventi ...

Ecco come possiamo costruire un intervallo di confidenza (unilaterale) per nel caso in cui tutte le osservazioni vengano censurate. La funzione di probabilità in quel caso è , che ha la stessa forma della funzione di probabilità da un esperimento binomiale in cui abbiamo ottenuto tutti i successi, che è (vedi anche Intervallo di confidenza attorno alla stima binomiale di 0 o 1 ). In tal caso, vogliamo un intervallo di confidenza unilaterale per del modulo . Allora otteniamo un intervallo per risolvendo .e - λ n T p n p [ p ¯λeλnTpnpλ log p = - λ T[p¯,1]λlogp=λT

Otteniamo l'intervallo di confidenza per risolvendo modo che . Ciò fornisce infine l'intervallo di confidenza per : P ( X = n ) = p n0,95 (dire) n log p log 0,95 λ λ - log 0,95p

P(X=n)=pn0.95    (say)
nlogplog0.95λ
λlog0.95nT.

1
Leggendo la domanda e la risposta ho pensato "Che cosa succede se tutte le osservazioni sono del secondo tipo, per le quali sappiamo solo che e nessuna osservazione è stata pienamente osservata?" Sarebbe davvero utile includere questo caso anche nella tua risposta, come estensione. xj>tj
Alecos Papadopoulos,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.