Perché dovrebbero scegliere una distribuzione gamma qui?


14

In uno degli esercizi per il mio corso, stiamo usando un set di dati medici Kaggle .

L'esercizio dice:

vogliamo modellare la distribuzione dei singoli addebiti e vogliamo anche davvero essere in grado di catturare la nostra incertezza su tale distribuzione in modo da poter meglio catturare l'intervallo di valori che potremmo vedere. Caricamento dei dati ed esecuzione di una vista iniziale:

tracciare

Potremmo sospettare da quanto sopra che ci sia una sorta di distribuzione esponenziale in gioco qui. ... Le spese per i sinistri possono essere multimodali. La distribuzione gamma potrebbe essere applicabile e potremmo verificarla per la distribuzione di oneri che non erano i reclami assicurativi per primi.

Ho cercato "Distribuzione gamma" e ho trovato "una distribuzione continua, solo positiva, unimodale che codifica il tempo necessario affinché eventi« alfa »si verifichino in un processo di Poisson con tempo medio di arrivo di« beta »"

Qui non c'è tempo, solo spese non correlate, assicurate o meno.

Perché dovrebbero scegliere una distribuzione gamma?

Risposte:


27

Quando si prendono in considerazione semplici modelli parametrici per la distribuzione condizionale dei dati (ovvero la distribuzione di ciascun gruppo o la distribuzione prevista per ciascuna combinazione di variabili predittive) e si ha a che fare con una distribuzione continua positiva , le due scelte comuni sono Gamma e log-normale . Oltre a soddisfare le specifiche del dominio della distribuzione (numeri reali maggiori di zero), queste distribuzioni sono computazionalmente convenienti e spesso hanno un senso meccanicistico.

  • La distribuzione log-Normal viene facilmente derivata esponendo una distribuzione Normal (viceversa, i log-deviati Log-Normal che trasformano il log generano deviati Normal). Da un punto di vista meccanicistico, il log-normale sorge attraverso il teorema del limite centrale quando ogni osservazione riflette il prodotto di un gran numero di variabili casuali iid. Dopo aver trasformato i dati nei log, avrai accesso a una grande varietà di strumenti computazionali e analitici (ad esempio, qualsiasi cosa che assuma la Normalità o usi i metodi dei minimi quadrati).
  • Come sottolinea la tua domanda, un modo in cui sorge una distribuzione Gamma è come la distribuzione dei tempi di attesa fino a quando si verificano eventi indipendenti con un tempo di attesa costante . Non riesco a trovare facilmente un riferimento per un modello meccanicistico di distribuzioni gamma di sinistri assicurativi, ma ha anche senso utilizzare una distribuzione gamma da un punto di vista fenomenologico (ovvero descrizione dei dati / convenienza computazionale). La distribuzione gamma fa parte della famiglia esponenziale (che include il normale ma non il log-normale), il che significa che tutti i macchinari dei modelli lineari generalizzatinλè disponibile; ha anche una forma particolarmente conveniente per l'analisi.

Ci sono altri motivi per cui uno potrebbe scegliere l'uno o l'altro, ad esempio la "pesantezza" della coda della distribuzione , che potrebbe essere importante nel prevedere la frequenza di eventi estremi. Esistono molte altre distribuzioni positive e continue (ad es. Vedi questo elenco ), ma tendono ad essere utilizzate in applicazioni più specializzate.

Pochissime di queste distribuzioni cattureranno la multi-modalità che vedi nelle distribuzioni marginali sopra, ma la multi-modalità può essere spiegata dai dati raggruppati in categorie descritte da predittori categorici osservati. Se non ci sono predittori osservabili che spiegano la multimodalità, si potrebbe scegliere di adattare un modello di miscela finito basato su una miscela di un numero (piccolo, discreto) di distribuzioni continue positive.


1
vale anche la pena notare che i modelli gamma e lognormali danno risultati quasi sempre molto simili
carlo,

2
Lavoro nella ricerca sui servizi sanitari. Posso confermare che in generale una distribuzione gamma o lognormale sarebbe una scelta appropriata per un modello di spesa sanitaria o importi delle richieste. La distribuzione gamma può essere utilizzata in tempo per i modelli di eventi, ma quelli non sono applicabili qui.
Weiwen Ng,

Grazie!! Questo è stato molto utile.
Vicki B,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.