Perché si presume che i tempi di sopravvivenza siano distribuiti esponenzialmente?


36

Sto imparando l'analisi di sopravvivenza da questo post su UCLA IDRE e sono stato inciampato nella sezione 1.2.1. Il tutorial dice:

... se si sapesse che i tempi di sopravvivenza sono distribuiti in modo esponenziale , allora la probabilità di osservare un tempo di sopravvivenza ...

Perché si presume che i tempi di sopravvivenza siano distribuiti esponenzialmente? Mi sembra molto innaturale.

Perché non distribuito normalmente? Supponiamo che stiamo studiando la durata della vita di una creatura in determinate condizioni (diciamo il numero di giorni), dovrebbe essere più centrato su un numero con una certa varianza (diciamo 100 giorni con una varianza di 3 giorni)?

Se vogliamo che il tempo sia strettamente positivo, perché non fare una distribuzione normale con una media più alta e una varianza molto piccola (non avrà quasi alcuna possibilità di ottenere un numero negativo)?


9
Dal punto di vista euristico, non riesco a pensare alla normale distribuzione come a un modo intuitivo per modellare il tempo di fallimento. Non è mai spuntato in nessuno dei miei lavori applicati. Sono sempre inclinati molto all'estrema destra. Penso che le distribuzioni normali avvengano euristicamente come una questione di medie, mentre i tempi di sopravvivenza si verificano euristicamente come una questione di estremi come l'effetto di un rischio costante applicato a una sequenza di componenti parallele o in serie.
AdamO

6
Concordo con @AdamO in merito alle distribuzioni estreme inerenti alla sopravvivenza e al tempo al fallimento. Come altri hanno notato, i presupposti esponenziali hanno il vantaggio di essere trattabili. Il problema più grande con loro è l'assunto implicito di un tasso costante di decadimento. Altre forme funzionali sono possibili e sono disponibili come opzioni standard a seconda del software, ad es. Gamma generalizzata. I test di bontà di adattamento possono essere impiegati per testare diverse forme e ipotesi funzionali. Il miglior testo sul modello di sopravvivenza è Survival Analysis di Paul Allison utilizzando SAS, 2a ed. Dimentica SAS - è un'eccellente recensione
Mike Hunter,

8
Vorrei notare che la prima parola nella tua citazione è " if "
Fomite

Risposte:


41

Le distribuzioni esponenziali sono spesso utilizzate per modellare i tempi di sopravvivenza perché sono le distribuzioni più semplici che possono essere utilizzate per caratterizzare i dati di sopravvivenza / affidabilità. Questo perché sono privi di memoria e quindi la funzione di pericolo è costante con tempo r / t, il che rende l'analisi molto semplice. Questo tipo di presupposto può essere valido, ad esempio, per alcuni tipi di componenti elettronici come circuiti integrati di alta qualità. Sono sicuro che puoi pensare a più esempi in cui l'effetto del tempo sul pericolo può tranquillamente essere considerato trascurabile.

Tuttavia, è corretto osservare che questo non sarebbe un presupposto appropriato da fare in molti casi. Le distribuzioni normali possono andare bene in alcune situazioni, anche se i tempi di sopravvivenza ovviamente negativi sono insignificanti. Per questo motivo, vengono spesso considerate le distribuzioni lognormali. Altre scelte comuni includono Weibull, Valore estremo più piccolo, Valore estremo più grande, Logistica, ecc. Una scelta ragionevole per il modello sarebbe influenzata dall'esperienza dell'area e dalla rappresentazione della probabilità . Naturalmente puoi anche considerare la modellazione non parametrica.

Un buon riferimento per la modellistica parametrica classica nell'analisi della sopravvivenza è: William Q. Meeker e Luis A. Escobar (1998). Metodi statistici per dati di affidabilità , Wiley


potresti approfondire "La funzione di pericolo è costante con tempo r / t"?
Haitao Du

4
@ hxd1011: presumibilmente per "funzione di pericolo" l'autore si riferisce alla funzione data da r X ( t ) = f X ( t ) / ˉ F X ( t ) , dove f X è il pdf di X e ˉ F X è la coda di X ( ˉ F X ( t ) = 1 - F X ( t ) = trXrX(t)=fX(t)/F¯X(t)fXXF¯XX ). Questo è anche chiamato iltasso di fallimento. L'osservazione è che per Exp ( λ ) , il tasso di fallimento è r ( t ) = ( λ e - λ t ) / ( e - λ t ) = λ , che è costante. Inoltre, non è difficile dimostrare chesolola distribuzione esponenziale ha questa proprietà. F¯X(t)=1FX(t)=tfX(x)dxExp(λ)r(t)=(λeλt)/(eλt)=λ
wchargin,

22

Per aggiungere un po 'di intuizione matematica dietro il modo in cui gli esponenti compaiono nelle distribuzioni di sopravvivenza:

La densità di probabilità di una variabile di sopravvivenza è , dove h ( t ) è il rischio attuale (rischio per una persona di "morire" oggi) e S ( t ) è il probabilità che una persona sopravviva fino a t . S ( t ) può essere espanso come probabilità che una persona sia sopravvissuta al giorno 1 e sia sopravvissuta al giorno 2, ... fino al giorno t . Quindi: P ( s u r v if(t)=h(t)S(t)h(t)S(t)tS(t)tP ( s u r v i v e d d un y s 1 , 2 , . . . , t ) = ( 1 - h ( t ) ) t Con pericolo costante e piccolo λ , possiamo usare: e - λ1 -

P(survived day t)=1h(t)
P(survived days 1,2,...,t)=(1h(t))t
λ
eλ1λ
per approssimare semplicemente ( 1 - λ ) te - λ t , e la densità di probabilità è quindi f ( t ) = h ( t ) S ( t ) = λ e - λ tS(t)
(1λ)teλt
f(t)=h(t)S(t)=λe-λt

Disclaimer: questo non è in alcun modo un tentativo di una corretta derivazione del pdf - Ho appena immaginato che questa sia una coincidenza ordinata, e accolgo con favore qualsiasi commento sul perché questo sia corretto / errato.

EDIT: modificato l'approssimazione per consiglio di @SamT, vedere i commenti per la discussione.


1
+1 questo mi ha aiutato a capire di più sulle proprietà della distribuzione esponenziale.
Haitao Du

1
S(t)=...tλt(1+x/n)n exx=o(n)limt(1-λt/t)t=e-λtt

tλ

1
λλt
(1+X/n)neX
λ
e-λt=(e-λ)t(1-λ)t.
λ=λt/t
e-λt(1-λt/t)t.

In fase di applicazione, potresti ritenere che sia un po 'esigente, ma il punto è che il ragionamento non era valido; simili passaggi non validi potrebbero non essere veri. Naturalmente, come qualcuno ha chiesto, potresti essere felice di fare questo passaggio, trovarlo nella maggior parte dei casi e non preoccuparti dei dettagli! Come qualcuno che fa matematica pura, questo è fuori discussione per me, ma capisco che abbiamo bisogno sia di pura che di applicazione! (E in particolare nelle statistiche è bene non impantanarsi in tecnicismi puri.)
Sam T

11

Quasi sicuramente vorrai esaminare l'ingegneria dell'affidabilità e le previsioni per analisi approfondite dei tempi di sopravvivenza. All'interno di ciò, ci sono alcune distribuzioni che vengono utilizzate spesso:

La distribuzione di Weibull (o "vasca da bagno") è la più complessa. Rappresenta tre tipi di modalità di guasto, che dominano a età diverse: mortalità infantile (in cui le parti difettose si rompono presto), guasti indotti (in cui le parti si rompono casualmente per tutta la vita del sistema) e usura (da cui si rompono le parti uso). Come usato, ha un PDF che assomiglia a "\ __ /". Per alcuni dispositivi elettronici, in particolare, potresti sentire dei tempi di "burn in", il che significa che quelle parti sono già state azionate attraverso la parte "\" della curva e che i guasti precoci sono stati schermati (idealmente). Sfortunatamente, l'analisi di Weibull si interrompe rapidamentese le tue parti non sono omogenee (incluso l'ambiente d'uso!) o se le stai usando in scale temporali diverse (ad es. se alcune parti vanno direttamente in uso e altre parti vanno prima in deposito, il tasso di "guasto casuale" sta per essere significativamente diverso, a causa della fusione di due misurazioni del tempo (ore di funzionamento e ore di utilizzo).

Le distribuzioni normali sono quasi sempre sbagliate. Ogni distribuzione normale ha valori negativi, nessuna distribuzione dell'affidabilità lo fa. A volte possono essere un'approssimazione utile, ma i tempi in cui è vero, guardi quasi sempre un log-normale comunque, quindi puoi anche semplicemente usare la giusta distribuzione. Le distribuzioni log-normali vengono utilizzate correttamente quando si verificano errori logori e trascurabili e in nessun altro caso! Come la distribuzione normale, sono abbastanza flessibili da poter essere forzati a adattarsi alla maggior parte dei dati; devi resistere a questo impulso e controllare che le circostanze abbiano un senso.

Infine, la distribuzione esponenziale è il vero cavallo di battaglia. Spesso non sai quanti anni hanno le parti (ad esempio, quando le parti non sono serializzate e hanno tempi diversi quando sono entrate in servizio), quindi qualsiasi distribuzione basata sulla memoria è fuori. Inoltre, molte parti hanno un tempo di logoramento così arbitrariamente lungo che è completamente dominato da guasti indotti o al di fuori del periodo di tempo utile dell'analisi. Quindi, anche se potrebbe non essere un modello perfetto come le altre distribuzioni, non gliene importa nulla delle cose che le fanno inciampare. Se hai un MTTF (tempo di popolazione / conteggio degli insuccessi), hai una distribuzione esponenziale. Inoltre, non è necessaria alcuna comprensione fisica del sistema. Puoi fare solo stime esponenzialisulla base degli MTTF della parte osservata (assumendo un campione abbastanza grande), e ne risultano abbastanza vicini. È anche resistente alle cause: se ogni due mesi, qualcuno si annoia e gioca a croquet con una parte fino a quando non si rompe, spiega in modo esponenziale (rotola in MTTF). L'esponenziale è anche abbastanza semplice da consentire calcoli back-of-the-envelope per la disponibilità di sistemi ridondanti e simili, il che aumenta significativamente la sua utilità.


3
Questa è una buona risposta, ma nota che la distribuzione Weibull non è la distribuzione parametrica "più complessa" per i modelli di sopravvivenza. Non sono sicuro che ci possa essere una cosa del genere, ma sicuramente rispetto al Weibull c'è la distribuzione Gamma generalizzata e la distribuzione F generalizzata , entrambe le quali possono prendere il Weibull come un caso speciale impostando i parametri su 0.
gung - Ripristina Monica

È il più complesso comunemente usato nell'ingegneria dell'affidabilità (primo paragrafo :) Non sono in disaccordo con il tuo punto, ma non ho nemmeno mai visto nessuno dei due effettivamente usato (i commenti su come potrebbero essere usati, sì. Implementazione effettiva, no )
fectin - libera Monica

9

Per rispondere alla tua domanda esplicita, non puoi usare la distribuzione normale per la sopravvivenza perché la distribuzione normale va all'infinito negativo e la sopravvivenza è strettamente non negativa. Inoltre, non credo sia vero che "i tempi di sopravvivenza sono considerati distribuiti esponenzialmente" da chiunque nella realtà.

zt

>1<1

Più comunemente, le distribuzioni di sopravvivenza sono complesse e non si adattano bene a nessuna distribuzione denominata. Le persone in genere non si preoccupano nemmeno di cercare di capire quale distribuzione potrebbe essere. Questo è ciò che rende così popolare il modello dei rischi proporzionali di Cox: è semi-parametrico in quanto il rischio di base può essere lasciato completamente non specificato, ma il resto del modello può essere parametrico in termini di relazione con la linea di base non specificata.


4
"Inoltre, non credo sia vero che" si presume che i tempi di sopravvivenza siano distribuiti esponenzialmente "da chiunque nella realtà." In realtà l'ho trovato abbastanza comune in epidemiologia, di solito implicitamente.
Fomite

1
@gung, potresti gentilmente spiegare - è semi-parametrico in quanto il rischio di base può essere lasciato completamente non specificato ma il resto del modello può essere parametrico in termini di relazione con la linea di base non specificata
Gaurav Singhal,

7

Qualche ecologia potrebbe aiutare a rispondere al "Perché" dietro questa domanda.

Il motivo per cui la distribuzione esponenziale è usata per modellare la sopravvivenza è dovuto alle strategie di vita coinvolte negli organismi che vivono nella natura. Ci sono essenzialmente due estremi per quanto riguarda la strategia di sopravvivenza con qualche spazio per la via di mezzo.

Ecco un'immagine che illustra cosa intendo (per gentile concessione di Khan Academy):

https://www.khanacademy.org/science/biology/ecology/population-ecology/a/life-tables-survivorship-age-sex-structure

Questo grafico traccia gli individui sopravvissuti sull'asse Y e la "percentuale della massima aspettativa di vita" (ovvero l'approssimazione dell'età dell'individuo) sull'asse X.

Tipo I sono gli esseri umani, che modellano organismi che hanno un livello estremo di cura della prole garantendo una mortalità infantile molto bassa. Spesso queste specie hanno pochissime prole perché ognuna prende una grande quantità di tempo e fatica dai genitori. La maggior parte di ciò che uccide gli organismi di tipo I è il tipo di complicanze che insorgono nella vecchiaia. La strategia qui è un investimento elevato per un elevato guadagno in vite lunghe e produttive, anche se a scapito di numeri puri.

Al contrario, il tipo III è modellato dagli alberi (ma potrebbe anche essere plancton, coralli, pesci che generano, molti tipi di insetti, ecc.) In cui il genitore investe relativamente poco in ogni prole, ma ne produce una tonnellata nella speranza che alcuni sopravvivere. La strategia qui è "spruzza e prega" sperando che mentre la maggior parte della prole sarà distrutta relativamente rapidamente dai predatori che traggono vantaggio da facili raccolti, i pochi che sopravvivono abbastanza a lungo da crescere diventeranno sempre più difficili da uccidere, diventando infine (praticamente) impossibile essere mangiato. Nel frattempo, questi individui producono un numero enorme di discendenti nella speranza che alcuni sopravvivano allo stesso modo alla loro stessa età.

Il tipo II è una strategia media con un moderato investimento dei genitori per una moderata sopravvivenza a tutte le età.

Ho avuto un professore di ecologia che l'ha messa così:

"Il tipo III (alberi) è la" curva della speranza ", perché più un individuo sopravvive, più è probabile che continui a sopravvivere. Nel frattempo il tipo I (gli umani) è la" curva della disperazione ", perché più a lungo vivi, più è probabile che morirai ".


Questo è interessante, ma nota che per l'uomo, prima della medicina moderna (e ancora oggi in alcuni punti del mondo), la mortalità infantile è molto alta. La sopravvivenza umana al basale è spesso modellata con " pericolo da bagno ".
gung - Ripristina Monica

@gung Assolutamente, si tratta di un'ampia generalizzazione e ci sono variazioni all'interno degli umani di diverse regioni e periodi di tempo. La differenza principale è più chiara quando si confrontano gli estremi, ovvero le famiglie umane occidentali (~ 2,5 bambini per coppia, la maggior parte delle quali non muoiono durante l'infanzia) rispetto ai coralli o ai pesci che generano (milioni di uova rilasciate per ciclo di accoppiamento, la maggior parte delle quali morire a causa di essere mangiato, morire di fame, chimica dell'acqua pericolosa o semplicemente non riuscire a raggiungere una destinazione abitabile)
CaffeineConnoisseur

1
Mentre sono tutto per spiegazioni dall'ecologia, noterò che ipotesi come questa sono fatte anche per cose come dischi rigidi e motori di aerei.
Fomite

6

Questo non risponde direttamente alla domanda, ma penso che sia molto importante notare e non si adatta bene a un singolo commento.

Mentre la distribuzione esponenziale ha una derivazione teorica molto buona, e quindi supponendo che i dati prodotti seguano i meccanismi assunti nella distribuzione esponenziale, dovrebbe teoricamente fornire stime ottimali, in pratica devo ancora imbattermi in un set di dati in cui la distribuzione esponenziale produce anche vicino a risultati accettabili (ovviamente, questo dipende dai tipi di dati che ho analizzato, quasi tutti i dati biologici). Ad esempio, ho appena cercato di adattare un modello con una varietà di distribuzioni usando il primo set di dati che ho trovato nel mio pacchetto R. Per il controllo del modello della distribuzione di base, in genere confrontiamo con il modello semi-parametrico. Dai un'occhiata ai risultati.

Curve di sopravvivenza

Della distribuzione Weibull, log-logistica e log-normale, non esiste un vincitore assolutamente chiaro in termini di adattamento appropriato. Ma c'è un chiaro perdente: la distribuzione esponenziale! È stata la mia esperienza che questa grandezza di errata installazione non è eccezionale, ma piuttosto la norma per la distribuzione esponenziale.

Perché? Perché la distribuzione esponenziale è una singola famiglia di parametri. Pertanto, se specifico la media di questa distribuzione, ho specificato tutti gli altri momenti della distribuzione. Queste altre famiglie sono tutte e due le famiglie di parametri. Quindi, c'è molta più flessibilità in quelle famiglie per adattarsi ai dati stessi.

Ora tieni presente che la distribuzione di Weibull ha la distribuzione esponenziale come un caso speciale (cioè quando il parametro shape = 1). Quindi, anche se i dati sono veramente esponenziali, aggiungiamo solo un po 'più di rumore alle nostre stime usando una distribuzione Weibull su una distribuzione esponenziale. Come tale, non consiglierei quasi mai di usare la distribuzione esponenziale per modellare dati reali (e sono curioso di sapere se qualche lettore ha un esempio di quando in realtà è una buona idea).


1
Non sono convinto di questa risposta: 1) "usando il primo set di dati che ho trovato nel mio pacchetto R" ... Davvero? ... su stats.stackexchange? Un campione casuale e traggiamo conclusioni generali? 1b) Per i modelli in cui il tempo di guasto tende a essere distribuito attorno a un determinato valore (come la vita delle persone), chiaramente le distribuzioni come Gamma, Weibull, ecc. Sono più adatte; quando gli eventi sono ugualmente probabili, una distribuzione esponenziale è più adatta. Scommetto che il tuo "primo set di dati" sopra è del primo tipo. 2) Tutti gli altri modelli hanno 2 parametri, uno dovrebbe usare ad esempio il fattore Bayes per confrontare i modelli.
Luca Citi,

2
@LucaCiti: "il primo set di dati nel mio pacchetto R" indica il primo set di dati nel pacchetto R che ho pubblicato (icenReg). E ho notato che la mia esperienza con la distribuzione esponenziale che ha sempre avuto uno scarso adattamento dipendeva dal tipo di dati che ho analizzato; dati quasi esclusivamente biologici. Infine, come ho affermato alla fine, sono molto curioso di ascoltare esempi applicati reali in cui esiste una ragione convincente per utilizzare la distribuzione esponenziale, quindi se ne hai uno, ti preghiamo di condividere.
Cliff AB,

1
Uno scenario in cui potresti voler utilizzare la distribuzione esponenziale sarebbe quando (a) avevi molti dati storici che mostravano che i dati erano davvero ben approssimati con una distribuzione esponenziale e (b) che dovevi fare deduzione con piccoli campioni ( cioè n <10). Ma non conosco applicazioni reali come questa. Forse in una sorta di problema di controllo della qualità di produzione?
Cliff AB,

1
Ciao Cliff, grazie per aver dedicato del tempo per rispondere al mio commento. Penso che parlando approssimativamente una distribuzione come il Weibull si adatti a situazioni migliori corrispondenti a domande come "qual è il tempo di vita dell'individuo x nel mio campione" o "quando il neurone x andrà di nuovo a fuoco" o "quando sarà lucciola x che tornerà a lampeggiare ". Al contrario, una distribuzione esponenziale modella domande come "quando è prevista la prossima morte nella mia popolazione", "quando arriverà il prossimo neurone" o "quando lampeggerà una lucciola nello sciame"
Luca Citi,

@LucaCiti; ah, ho appena capito che la tua prima battuta era una battuta sul fare un'inferenza con n = 1. Non so come mi sono perso la prima volta. A mia difesa, se abbiamo una teoria che dice che lo stimatore dovrebbe essere asintoticamente normale, ma è 4+ deviazioni standard dalle altre stime asintoticamente normali, allora possiamo! Ma in tutta serietà, non è quell'unica trama che mi ha convinto, ma vedere costantemente lo stesso livello di deviazione. Potrei essere bloccato se spammando oltre 20 trame di attacchi esponenziali non validi.
Cliff AB,

4

Un altro motivo per cui la distribuzione esponenziale cresce spesso per modellare l'intervallo tra gli eventi è la seguente.

È noto che, secondo alcune ipotesi, la somma di un gran numero di variabili casuali indipendenti sarà vicina a una distribuzione gaussiana. Un teorema simile vale per i processi di rinnovamento , ovvero modelli stocastici per eventi che si verificano in modo casuale nel tempo con intervalli di eventi IID. In effetti, il teorema di Palm – Khintchine afferma che la sovrapposizione di un gran numero di processi di rinnovamento (non necessariamente di Poisson ) si comporta asintoticamente come un processo di Poisson . Gli intervalli tra gli eventi di un processo di Poisson sono distribuiti esponenzialmente.


3

tl; dr - Una distribuzione espontenziale equivale a supporre che gli individui abbiano la probabilità di morire in un dato momento come qualsiasi altro.

Derivazione

  1. Supponiamo che un individuo vivente abbia la probabilità di morire in un dato momento come in qualsiasi altro.

  2. Quindi, il tasso di mortalità -dPdt è proporzionale alla popolazione, P.

-dPdt α P
  1. Risolvendo gli spettacoli di WolframAlpha :

P(t)=c1e-t

Quindi, la popolazione segue una distribuzione esponenziale.

Nota matematica

La matematica sopra è una riduzione di un'equazione differenziale ordinaria del primo ordine (ODE) . Normalmente, risolveremmo anche perc0notando la condizione al contorno che la popolazione inizia con un determinato valore,P(t0), all'inizio t0.

Quindi l'equazione diventa:

P(t)=e-tP(t0).

Controllo di realtà

La distribuzione esponenziale presuppone che le persone nella popolazione tendano a morire allo stesso ritmo nel tempo. In realtà, i tassi di mortalità tenderanno a variare per le popolazioni limitate.

Elaborare migliori distribuzioni comporta equazioni differenziali stocastiche . Quindi, non possiamo dire che esiste una costante probabilità di morte; piuttosto, dobbiamo escogitare una distribuzione delle probabilità di morte di ogni individuo in un dato momento, quindi combinare quei vari alberi possibili insieme per l'intera popolazione, quindi risolvere quell'equazione differenziale nel tempo.

Non ricordo di aver mai visto nulla di simile online in precedenza, quindi probabilmente non ti imbatterai; ma, questo è il prossimo passo di modellazione se si desidera migliorare la distribuzione esponenziale.


3

(Nota che nella parte che hai citato, l'affermazione era condizionale; la frase stessa non ha assunto la sopravvivenza esponenziale, ha spiegato una conseguenza di ciò. Tuttavia, l'assunzione di sopravvivenza esponenziale è comune, quindi vale la pena affrontare la questione del "perché esponenziale "e" why not normal "- dato che il primo è già abbastanza ben coperto, mi concentrerò maggiormente sulla seconda cosa)

I tempi di sopravvivenza normalmente distribuiti non hanno senso perché hanno una probabilità diversa da zero che il tempo di sopravvivenza sia negativo.

Se poi limiti la tua considerazione alle normali distribuzioni che non hanno quasi alcuna possibilità di essere vicino allo zero, non puoi modellare i dati di sopravvivenza che hanno una ragionevole probabilità di un breve tempo di sopravvivenza:

distribuzioni del tempo di sopravvivenza - media normale 100 sd 10 rispetto a una particolare distribuzione con media 100 e sd 42 che ha più del 20% di probabilità di tempi di sopravvivenza tra 0 e 50

Forse una volta ogni tanto i tempi di sopravvivenza che non hanno quasi nessuna possibilità di brevi tempi di sopravvivenza sarebbero ragionevoli, ma hai bisogno di distribuzioni che abbiano un senso nella pratica - di solito osservi brevi e lunghi tempi di sopravvivenza (e qualsiasi cosa nel mezzo), con in genere una inclinazione distribuzione dei tempi di sopravvivenza). Una distribuzione normale non modificata sarà raramente utile nella pratica.

[Una normale troncata potrebbe essere più spesso un'approssimazione approssimativa ragionevole di una normale, ma altre distribuzioni spesso faranno meglio.]

Il rischio costante dell'esponenziale è talvolta un'approssimazione ragionevole per i tempi di sopravvivenza. Ad esempio, se "eventi casuali" come un incidente contribuiscono in modo determinante al tasso di mortalità, la sopravvivenza esponenziale funzionerà abbastanza bene. (Tra le popolazioni animali, ad esempio, a volte sia la predazione che la malattia possono agire almeno all'incirca come un processo casuale, lasciando qualcosa come un esponenziale come una prima approssimazione ragionevole ai tempi di sopravvivenza.)


Un'ulteriore domanda relativa al troncato normale: se normale non è appropriato perché non normale al quadrato (chi sq con df 1)?

In effetti potrebbe essere un po 'meglio ... ma nota che corrisponderebbe a un rischio infinito a 0, quindi potrebbe essere utile solo occasionalmente. Sebbene sia in grado di modellare casi con una percentuale molto elevata di tempi molto brevi, ha il problema opposto di essere in grado di modellare casi con una sopravvivenza generalmente più breve della media (il 25% dei tempi di sopravvivenza è inferiore al 10,15% del tempo medio di sopravvivenza e metà dei tempi di sopravvivenza è inferiore al 45,5% della media; ovvero la sopravvivenza mediana è inferiore alla metà della media.)

Diamo un'occhiata a una scala χ12 (ovvero una gamma con parametro di forma 12):

Trama simile a prima, ma anche con densità di una variabile che è 100 volte un chi-quadrato (1);  ha un picco alto a 0 e una coda molto pesante - la media è 100 ma la sd è di circa 141 e la mediana è di circa 45.

[Forse se ne sommi due χ12 variate ... o forse se hai considerato non centrale χ2otterresti alcune possibilità adatte. Al di fuori dell'esponenziale, le scelte comuni delle distribuzioni parametriche per i tempi di sopravvivenza includono Weibull, lognormale, gamma, log-logistico tra molti altri ... nota che il Weibull e la gamma includono l'esponenziale come caso speciale]


grazie, ho aspettato la tua risposta da ieri :). Un'ulteriore domanda correlata troncata normale: se normale non è appropriato perché non normale al quadrato (chi sq con df 1)?
Haitao Du

In effetti potrebbe essere un po 'meglio ... ma nota che corrisponderebbe a un rischio infinito a 0, quindi sarebbe utile solo occasionalmente. Ha il problema opposto di modellare solo casi con una sopravvivenza in genere molto più breve della media (il 25% dei tempi di sopravvivenza è inferiore al 10,15% del tempo medio di sopravvivenza e la metà dei tempi di sopravvivenza è inferiore al 45,5% della media) Forse se si somma due di quelliχ12variate potresti ottenere una funzione di pericolo meno sorprendente. . .; P
Glen_b -Restate Monica

grazie ancora per l'educazione, l'intuizione dietro le cose. Ho visto troppi tutorial a livello di ricetta e persone che fanno cose senza sapere il perché. Il CV è un ottimo posto per imparare.
Haitao Du

1

Se vogliamo che il tempo sia strettamente positivo, perché non fare una distribuzione normale con una media più alta e una varianza molto piccola (non avrà quasi alcuna possibilità di ottenere un numero negativo)?

Perché

  1. che ha ancora una probabilità diversa da zero di essere negativo, quindi non è strettamente positivo;

  2. la media e la varianza sono qualcosa che puoi misurare dalla popolazione che stai cercando di modellare. Se la tua popolazione ha media 2 e varianza 1 e la modelli con una distribuzione normale, quella distribuzione normale avrà una massa sostanziale inferiore allo zero; se lo modelli con una distribuzione normale con media 5 e varianza 0.1, il tuo modello ovviamente ha proprietà molto diverse rispetto a ciò che dovrebbe modellare.

La distribuzione normale ha una forma particolare e quella forma è simmetrica rispetto alla media. L'unico modo per regolare la forma è spostarla a destra e a sinistra (aumentare o diminuire la media) o renderla più o meno estesa (aumentare o diminuire la varianza). Ciò significa che l'unico modo per ottenere una distribuzione normale in cui la maggior parte della massa è tra due e dieci e solo una piccola quantità della massa è inferiore a zero, è necessario mettere la media a, diciamo, sei (al centro dell'intervallo ) e impostare la varianza abbastanza piccola da rendere negativa solo una minima parte dei campioni. Ma probabilmente scoprirai che la maggior parte dei tuoi campioni sono 5, 6 o 7, mentre dovevi avere un bel po 'di 2, 3, 4, 8, 9 e 10.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.