Quale ha la coda più pesante, lognormale o gamma?


41

(Questo si basa su una domanda che mi è appena arrivata via e-mail; ho aggiunto un contesto di una precedente breve conversazione con la stessa persona.)

L'anno scorso mi è stato detto che la distribuzione gamma è più pesante di quella lognormale, e da allora mi è stato detto che non è così.

  • Qual è la coda più pesante?

  • Quali sono alcune risorse che posso usare per esplorare la relazione?


3
Alla persona che ha appena effettuato il downgrade: sarebbe utile sapere qual è il problema percepito con la domanda.
Glen_b,

1
Non sono stato io, ho votato molto tempo fa. Tuttavia, sospetto che si trattasse dell'utilità della coda pesante rispetto alla curtosi nel contesto delle ipotesi di test t in presenza di valori anomali, che non ha assolutamente nulla a che fare con ciò che hai chiesto. Il downvoting è, IMHO, problematico .
Carl

Risposte:


41

La coda (destra) di una distribuzione descrive il suo comportamento a valori elevati. L'oggetto di studio non corretta è la sua densità - che in molti casi pratici non esiste - ma piuttosto la sua funzione di ripartizione F . Più specificamente, poiché F deve aumentare asintoticamente a 1 per grandi argomenti x (secondo la Legge della probabilità totale), siamo interessati a quanto rapidamente si avvicina a quell'asintoto: dobbiamo investigare il comportamento della sua funzione di sopravvivenza 1F(x) come x .

FXG FGx0x>x0

PrF(X>x)=1F(x)>1G(x)=PrG(X>x).

figura

La curva rossa in questa figura è la funzione di sopravvivenza per una distribuzione di Poisson . La curva blu è per una distribuzione Gamma , che ha la stessa varianza. Alla fine la curva blu supera sempre la curva rossa, dimostrando che questa distribuzione Gamma ha una coda più pesante di questa distribuzione di Poisson. Queste distribuzioni non possono essere facilmente confrontate usando le densità, poiché la distribuzione di Poisson non ha densità.(3)(3)

È vero che quando le densità e esistono e per allora è più pesante dalla coda di . Tuttavia, il contrario è falso - e questa è una ragione convincente per basare la definizione di pesantezza della coda sulle funzioni di sopravvivenza piuttosto che sulle densità, anche se spesso l'analisi delle code può essere effettuata più facilmente usando le densità.fgf(x)>g(x)x>x0FG

I contro-esempi possono essere costruiti prendendo una distribuzione discreta di supporto positivo illimitato che tuttavia non è più pesante di (discretizzare farà il trucco). Trasformalo in una distribuzione continua sostituendo la massa di probabilità di in ciascuno dei suoi punti di supporto , scritta , da (diciamo) una distribuzione Beta scala con supporto su un intervallo adatto e ponderato per . Dato un piccolo numero positivo scegliHGGHkh(k)(2,2)[kε(k),k+ε(k)]h(k)δ,ε(k)sufficientemente piccolo da garantire che la densità di picco di questa distribuzione Beta scalata superi . Per costruzione, la miscela è una distribuzione continua cui coda assomiglia a quella di (è uniformemente un po 'più bassa di una quantità ) ma ha punte nella sua densità a supporto di e tutti quei picchi hanno punti in cui superano la densità di . Così è più leggero dalla coda di , ma non importa quanto lontano fuori nella coda andiamo ci saranno punti in cui la sua densità è superiore a quello della .f(k)/δδH+(1δ)GGGδHfGFF

figura

La curva rossa è il PDF di una distribuzione Gamma , la curva d'oro è il PDF di una distribuzione lognormale , e la curva blu (con punte) è il PDF di una miscela costruita come nel controesempio. (Nota l'asse della densità logaritmica.) La funzione di sopravvivenza di è vicina a quella di una distribuzione Gamma (con oscillazioni in rapido decadimento): alla fine crescerà meno di quella di , anche se il suo PDF andrà sempre al di sopra di quello di non importa quanto lontano guardiamo nelle code.GFGGFF


Discussione

Per inciso, possiamo eseguire questa analisi direttamente sulle funzioni di sopravvivenza delle distribuzioni lognormali e gamma, espandendole attorno a per trovare il loro comportamento asintotico e concludere che tutti i lognormali hanno code più pesanti di tutti i gamme. Tuttavia, poiché queste distribuzioni hanno densità "gradevoli", l'analisi viene eseguita più facilmente dimostrando che per sufficientemente grandi , una densità lognormale supera una densità Gamma. Non confondiamo, tuttavia, questa convenienza analitica con il significato di una coda pesante.x=x

Allo stesso modo, anche se i momenti più alti e le loro varianti (come l'asimmetria e la curtosi) dicono qualcosa sulle code, non forniscono informazioni sufficienti. Come semplice esempio, potremmo troncare qualsiasi distribuzione lognormale a un valore così grande che qualsiasi dato numero dei suoi momenti cambierà appena - ma così facendo avremo rimosso completamente la sua coda, rendendola più leggera rispetto a qualsiasi distribuzione con illimitato supporto (come un Gamma).

Una giusta obiezione a queste contorsioni matematiche sarebbe quella di sottolineare che il comportamento così lontano nella coda non ha alcuna applicazione pratica, perché nessuno avrebbe mai creduto che qualsiasi modello distributivo sarà valido a valori così estremi (forse fisicamente irraggiungibili). Ciò dimostra, tuttavia, che nelle applicazioni dovremmo fare attenzione a identificare quale parte della coda è preoccupante e analizzarla di conseguenza. (I tempi di ricorrenza delle alluvioni, per esempio, possono essere compresi in questo senso: alluvioni di 10 anni, alluvioni di 100 anni e alluvioni di 1000 anni caratterizzano particolari sezioni della coda della distribuzione delle alluvioni). Tuttavia, si applicano gli stessi principi: l'oggetto fondamentale dell'analisi qui è la funzione di distribuzione e non la sua densità.


6
+1 eccellente discussione sul perché dovrebbe essere basato sulla funzione sopravvissuto. Ho raccomandato alla fonte originale della domanda di dare un'occhiata alla tua risposta.
Glen_b,

1
(+1) per una buona discussione probabilistica su come interpretare la funzione di sopravvivenza.

Questa definizione di code pesanti va bene, come una definizione. Ma ha seri problemi. In particolare, ci sono distribuzioni limitate che probabilmente hanno code pesanti, come una distribuzione .9999 * U (-1,1) + .0001 * U (-1000,1000). Secondo la "definizione", la distribuzione N (0,1) ha code più pesanti rispetto alla distribuzione .9999 * U (-1,1) + .0001 * U (-1000.1000). Questo è ovviamente sciocco. Ammettiamolo: ci sono infiniti modi per misurare la coda della distribuzione.
Peter Westfall,

1
@Peter La "stupidità" sorge perché sembra che tu abbia ottenuto le idee al contrario. Nessuno dei tuoi esempi ha una coda "pesante" in alcun senso, perché sono limitati. Entrambe le funzioni di sopravvivenza alla fine sono esattamente zero e quindi entrambe le code sono ugualmente leggere.
whuber

1
@PeterWestfall Hai confrontato le code che hanno limitato il supporto con quelle che hanno un supporto infinito, come se ciò fosse significativo. Esistono molti contesti in cui ciò sarebbe inutile, persino sciocco. In quei contesti in cui si potrebbero confrontarli, potrebbe essere appropriato un rapporto di differenza quantile. Non ci sono molti contesti oltre a quelli e se riesci a pensarne uno, raccontalo.
Carl,

30

La gamma e il lognormale sono entrambi distribuzioni di inclinazione retta, coefficiente di variazione costante su e spesso sono la base di modelli "concorrenti" per particolari tipi di fenomeni.(0,)

Esistono vari modi per definire la pesantezza di una coda, ma in questo caso penso che tutti i soliti mostrino che il lognormale è più pesante. (Ciò di cui potrebbe aver parlato la prima persona è ciò che accade non nella coda lontana, ma un po 'a destra della modalità (diciamo, intorno al 75 ° percentile nel primo diagramma in basso, che per il lognormale è appena sotto 5 e la gamma appena sopra 5.)

Tuttavia, esploriamo la domanda in un modo molto semplice per iniziare.

Di seguito sono riportate le densità gamma e lognormale con media 4 e varianza 4 (trama superiore - gamma è verde scuro, lognormale è blu), quindi il registro della densità (inferiore), in modo da poter confrontare le tendenze nelle code:

inserisci qui la descrizione dell'immagine

È difficile vedere molti dettagli nella trama in alto, perché tutta l'azione è alla destra di 10. Ma è abbastanza chiaro nella seconda trama, in cui la gamma si sta muovendo molto più rapidamente rispetto al lognormale.

Un altro modo per esplorare la relazione è guardare la densità dei registri, come nella risposta qui ; vediamo che la densità dei log per il lognormale è simmetrica (è normale!) e che per la gamma è inclinata a sinistra, con una coda leggera sulla destra.

Possiamo farlo algebricamente, dove possiamo guardare il rapporto di densità come (o il registro del rapporto). Lasciate che sia una densità gamma e log-normale:xgf

log(g(x)/f(x))=log(g(x))log(f(x))

=log(1Γ(α)βαxα1ex/β)log(12πσxe(log(x)μ)22σ2)

=k1(α1)log(x)x/β(k2log(x)(log(x)μ)22σ2)

=[c(α2)log(x)+(log(x)μ)22σ2]x/β

Il termine in [] è un quadratico in , mentre il termine rimanente sta diminuendo linearmente in . Indipendentemente da ciò, quel alla fine scenderà più velocemente del quadratico aumenta indipendentemente da quali siano i valori dei parametri . Nel limite come , il log del rapporto di densità sta diminuendo verso , il che significa che il pdf gamma è eventualmente molto più piccolo del pdf lognormale e continua a diminuire, relativamente. Se prendi il rapporto nell'altro modo (con lognormale in alto), alla fine deve aumentare oltre ogni limite.log(x)xx/βx

Cioè, ogni dato lognormale alla fine è più pesante di qualsiasi gamma.


Altre definizioni di pesantezza:

Alcune persone sono interessate all'asimmetria o alla curtosi per misurare la pesantezza della coda destra. A un dato coefficiente di variazione, il lognormale è sia più inclinato che presenta una curtosi più elevata rispetto alla gamma . **

Ad esempio, con l' asimmetria , la gamma ha un'asimmetria di 2 CV mentre il lognormale è CV + CV .3

Ci sono alcune definizioni tecniche di varie misure di quanto sono pesanti le code qui . Potresti provare alcuni di quelli con queste due distribuzioni. Il lognormale è un caso speciale interessante nella prima definizione: esistono tutti i suoi momenti, ma il suo MGF non converge al di sopra di 0, mentre il MGF per il Gamma converge in un quartiere intorno allo zero.

-

** Come Nick Cox menziona di seguito, la solita trasformazione in normalità approssimativa per la gamma, la trasformazione di Wilson-Hilferty, è più debole del log: è una trasformazione della radice del cubo. A piccoli valori del parametro shape, la quarta radice è stata menzionata invece vedere la discussione in questa risposta , ma in entrambi i casi è una trasformazione più debole per raggiungere la quasi normalità.

Il confronto di asimmetria (o curtosi) non suggerisce alcuna relazione necessaria nella coda estrema - ci dice invece qualcosa sul comportamento medio; ma per questo motivo potrebbe funzionare meglio se il punto originale non fosse stato sollevato riguardo alla coda estrema.


Risorse : è facile usare programmi come R o Minitab o Matlab o Excel o qualunque cosa ti piaccia per disegnare densità e densità di registro e registri di rapporti di densità ... e così via, per vedere come vanno le cose in casi particolari. Questo è ciò che suggerirei di iniziare.


4
In effetti lo suggerisce, ma non c'è alcuna relazione necessaria tra picco, coda pesante e curtosi; ci sono controesempi a tali aspettative, quindi dobbiamo stare attenti. La seconda trama conferma il sospetto però.
Glen_b,

5
Ecco un one-liner. È una definizione che è necessaria la trasformazione del log per rendere normale un lognormale; è una buona approssimazione che una radice cubica renda normale una gamma (Wilson-Hilferty sono due parole per il saggio); la distribuzione che necessita di una trasformazione più forte è "più" dal normale o gaussiano.
Nick Cox,

2
@Glen_b Sto solo aggiungendo un po 'di decorazione a una tua torta molto carina.
Nick Cox,

2
@ Nick Cox Non sono in disaccordo con le dichiarazioni sulle trasformazioni. La parte matematicamente illegittima è la conclusione che si tenta di trarre: dal fatto che un logaritmo rende il lognormale normale e una radice cubica rende un gamma approssimativamente normale, non è possibile trarre alcuna conclusione sulle code di nessuno dei due.
whuber

2
Grazie; il tuo punto è più chiaro per me, ma mi attengo alla mia formulazione della "regola empirica" ​​e invoco anche l'esperienza. Chiaramente, non ho un teorema.
Nick Cox,

7

Sebbene la kurtosi sia correlata alla pesantezza delle code, contribuirebbe di più alla nozione di distribuzioni dalla coda grassa e relativamente meno alla pesantezza della coda stessa, come mostra l'esempio seguente. Qui, rigurgito ciò che ho appreso nei post sopra e sotto, che sono commenti davvero eccellenti. Innanzitutto, l'area della coda destra è l'area da x a di una funzione di densità , AKA la funzione di sopravvivenza, . Per la distribuzione lognormale e la distribuzione gammaf(x)1F(t)e(log(x)μ)22σ22πσx;x0βαxα1eβxΓ(α);x0, confrontiamo le rispettive funzioni di sopravvivenza e graficamente. Per fare ciò, ho impostato arbitrariamente le loro rispettive varianze e , nonché i rispettivi eccessi di curtosi e uguale scegliendo e risolto per . Questo mostra12erfc(log(x)μ2σ)Q(α,βx)=Γ(α,βx)Γ(α)(eσ21)e2μ+σ2αβ23e2σ2+2e3σ2+e4σ266αμ=0,σ=0.8α0.19128,β0.3354211-F (x) per LND in blu e GD in arancione

la funzione di sopravvivenza per la distribuzione lognormale (LND) in blu e la distribuzione gamma (GD) in arancione. Questo ci porta alla nostra prima cautela. Cioè, se questa trama fosse tutto ciò che dovevamo esaminare, potremmo concludere che la coda per GD è più pesante che per LND. Che questo non sia il caso viene mostrato estendendo i valori dell'asse x della trama, quindi 1-F (x) per il grafico più lungo di LND e GD

Questo diagramma mostra che 1) anche con uguale curtosi, le aree della coda destra di LND e GD possono differire. 2) Questa interpretazione grafica da sola ha i suoi pericoli, in quanto può visualizzare solo risultati per valori di parametri fissi in un intervallo limitato. Pertanto, è necessario trovare espressioni generali per il rapporto di funzione di sopravvivenza limitante di . Non sono stato in grado di farlo con infinite espansioni in serie. Tuttavia, sono stato in grado di farlo utilizzando l'intermediario di funzioni terminali o asintotiche, che non sono funzioni uniche e dove per le code della mano destra, allora è sufficiente per elimxS(LND,x)S(GD,x)limxF(x)G(x)=1F(x)G(x)essere reciprocamente asintotici. Con un'adeguata cura nella ricerca di queste funzioni, ciò ha il potenziale per identificare un sottoinsieme di funzioni più semplici rispetto alle funzioni di sopravvivenza stesse, che possono essere condivise o tenute in comune con più di una funzione di densità, ad esempio, due diverse funzioni di densità possono condividere una coda esponenziale limitante. Nella versione precedente di questo post, questo è ciò a cui mi riferivo come "la maggiore complessità del confronto tra funzioni di sopravvivenza". Nota che e (Per inciso e non necessariamente elimuerfc(u)eu2πu=1limuΓ(α,u)euuα1=1erfc(u)<eu2πuΓ(α,u)<euuα1 . Cioè, non è necessario scegliere un limite superiore, solo una funzione asintotica). Qui scriviamo e dove il rapporto dei termini della mano destra ha lo stesso limite di come indica la mano sinistra. Semplificare il rapporto di limitazione dei rendimenti dei termini a destra12erfc(log(x)μ2σ)<e(log(x)μ2σ)22(π(log(x)μ))2σΓ(α,βx)Γ(α)<eβx(βx)α1Γ(α)xlimxσΓ(α)(βx)1αeβx(μlog(x))22σ22π(log(x)μ)= significa che per x sufficientemente grande, l'area della coda LND è grande quanto ci piace rispetto all'area di coda GD, indipendentemente da quali siano i valori dei parametri. Ciò solleva un altro problema, non sempre abbiamo soluzioni che sono vere per tutti i valori dei parametri, quindi, usare solo le illustrazioni grafiche può essere fuorviante. Ad esempio, l'area della coda destra della distribuzione gamma è maggiore dell'area della coda della distribuzione esponenziale quando , minore dell'esponenziale quando e il GD è esattamente una distribuzione esponenziale quando .α<1α>1α=1

A che serve allora prendere i logaritmi del rapporto tra le funzioni di sopravvivenza, dal momento che ovviamente non abbiamo bisogno di prendere i logaritmi per trovare un rapporto limitante? Molte funzioni di distribuzione contengono termini esponenziali che sembrano più semplici quando viene preso il logaritmo e se il rapporto va all'infinito nel limite all'aumentare di x, anche il logaritmo lo farà. Nel nostro caso, ciò ci consentirebbe di ispezionare , che alcune persone troverebbero più semplice da guardare. Infine, se il rapporto delle funzioni di sopravvivenza va a zero, il logaritmo di quel rapporto andrà alimx(log(σΓ(α)(βx)1α2π(log(x)μ))+βx(μlog(x))22σ2)=e in tutti i casi dopo aver trovato il limite di un logaritmo di un rapporto, dobbiamo prendere l'antilogaritmo di quel valore per capire la sua relazione con il valore limite del rapporto ordinario della funzione di sopravvivenza.


2
In questo caso (e abbastanza spesso nei casi di interesse) una curtosi superiore corrisponde a una coda più pesante, ma come proposizione generale non è così - i controesempi sono facili da costruire.
Glen_b,

1
1. Non conosco alcun modo generale se non quello di confrontare direttamente le code. 2. Cos'è che è più complicato? la risposta di Whuber ci mostra perché c'è un problema a guardare tutto tranne la funzione sopravvissuta (per la coda destra); spiega perché non è possibile confrontare i pdf in dettaglio, ma punti simili si ripercuotono sulla curtosi. Inoltre, confrontare è spesso molto meno complicato rispetto al confronto anche con curtosi. (Nella coda sinistra confronteresti direttamente, ma non è stato un problema per questa domanda.)S(x)=1F(x)F(x)
Glen_b

2
Noto anche che tu dici "Questo ha qualcosa a che fare con un teorema di momenti che dice che se (tutti?) I momenti di due distribuzioni sono uguali, allora le distribuzioni sono identiche". - anche se tutti i momenti di due distribuzioni sono uguali, le distribuzioni non sono necessariamente identiche. I controesempi sono discussi nelle risposte a diverse domande qui sul CV. Hai bisogno di più di tutti i momenti uguali - hai bisogno che l'MGF esista in un quartiere di 0.
Glen_b

1
@PeterWestfall Il supporto semi-infinito viene spesso assunto, ad esempio, come per le concentrazioni di farmaco nel plasma sanguigno. In tal caso, la pesantezza della coda determinerebbe se il tempo medio di permanenza del farmaco nell'organismo misura qualcosa (ad es. Distribuzione esponenziale) oppure no (ad es. Alcune distribuzioni di Pareto). 0t<
Carl,

1
@PeterWestfall Ottengo il tuo punto, simile a nma.berkeley.edu/ark:/28722/bk000471p7j . È doveroso ricordare che ogni distribuzione implica misure diverse per cose diverse. Ad esempio, il valore estremo medio è MVUE per la posizione di una distribuzione uniforme, non la media e non la mediana. Tra questi valori estremi, le code sono pesanti, ma al di fuori di esse, le code sono zip. Che cosa ha a che fare con un momento più alto come la curtosi, quando il primo momento non è MVUE non mi permetto di indovinare. Qualcosa, forse, ma cosa?
Carl,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.