Normalità asintotica della statistica dell'ordine delle distribuzioni dalla coda pesante


9

Sfondo: ho un campione che voglio modellare con una distribuzione dalla coda pesante. Ho alcuni valori estremi, tali che la diffusione delle osservazioni è relativamente grande. La mia idea era quella di modellare questo con una distribuzione Pareto generalizzata, e così ho fatto. Ora, il quantile 0,975 dei miei dati empirici (circa 100 punti dati) è inferiore al quantile 0,975 della distribuzione Pareto generalizzata che ho adattato ai miei dati. Ora, ho pensato, c'è un modo per verificare se questa differenza è qualcosa di cui preoccuparsi?

Sappiamo che la distribuzione asintotica dei quantili è data come:

normalità asintotica dei quantili

Quindi ho pensato che sarebbe stata una buona idea intrattenere la mia curiosità cercando di tracciare le bande di confidenza al 95% attorno al quantile 0,975 di una distribuzione Pareto generalizzata con gli stessi parametri che ho ottenuto dall'adattamento dei miei dati.

GPD

Come vedi, stiamo lavorando con alcuni valori estremi qui. E poiché la diffusione è così enorme, la funzione di densità ha valori estremamente piccoli, portando le bande di confidenza nell'ordine di usando la varianza della formula di normalità asintotica sopra:±1012

±1.960.9750.025n(fGPD(q0.975))2

Quindi, questo non ha alcun senso. Ho una distribuzione con solo risultati positivi e gli intervalli di confidenza includono valori negativi. Quindi qualcosa sta succedendo qui. Se calcolo le bande attorno allo 0,5 quantile, le bande non sono così grandi, ma comunque enormi.

Procedo per vedere come va con un'altra distribuzione, vale a dire la distribuzione . Simula osservazioni da una distribuzione e controlla se i quantili si trovano all'interno delle bande di confidenza. Faccio questo 10000 volte per vedere le proporzioni dei quantili 0,975 / 0,5 delle osservazioni simulate che si trovano all'interno delle bande di confidenza.N(1,1)n=100N(1,1)

    ################################################
# Test at the 0.975 quantile
################################################

#normal(1,1)

#find 0.975 quantile
q_norm<-qnorm(0.975, mean=1, sd=1)
#find density value at 97.5 quantile:
f_norm<-dnorm(q_norm, mean=1, sd=1)
#confidence bands absolute value:
band=1.96*sqrt((0.975*0.025)/(100*(f_norm)^2))
u=q_norm+band
l=q_norm-band

hit<-1:10000
for(i in 1:10000){
  d<-rnorm(n=100, mean=1, sd=1)
  dq<-quantile(d, probs=0.975)

  if(dq[[1]]>=l & dq[[1]]<=u) {hit[i]=1} else {hit[i]=0} 

}
sum(hit)/10000

#################################################################3
# Test at the 0.5 quantile  
#################################################################
#using lower quantile:

#normal(1,1)

#find 0.7 quantile
q_norm<-qnorm(0.7, mean=1, sd=1)
#find density value at 0.7 quantile:
f_norm<-dnorm(q_norm, mean=1, sd=1)
#confidence bands absolute value:
band=1.96*sqrt((0.7*0.3)/(100*(f_norm)^2))
u=q_norm+band
l=q_norm-band

hit<-1:10000
for(i in 1:10000){
  d<-rnorm(n=100, mean=1, sd=1)
  dq<-quantile(d, probs=0.7)

  if(dq[[1]]>=l & dq[[1]]<=u) {hit[i]=1} else {hit[i]=0} 

} 
sum(hit)/10000

EDIT : ho corretto il codice ed entrambi i quantili danno circa il 95% di hit con n = 100 e con . Se accendo la deviazione standard a , allora ci sono pochi successi all'interno delle bande. Quindi la domanda è ancora valida.σ=1σ=2

EDIT2 : ritiro ciò che ho affermato nel primo EDIT sopra, come sottolineato nei commenti di un gentiluomo disponibile. In realtà sembra che questi CI siano buoni per la distribuzione normale.

Questa normalità asintotica della statistica dell'ordine è solo una pessima misura da usare, se si vuole verificare se è probabile un certo quantile osservato, data una certa distribuzione candidata?

Intuitivamente, mi sembra che ci sia una relazione tra la varianza della distribuzione (che si pensa abbia creato i dati, o nel mio esempio R, che sappiamo aver creato i dati) e il numero di osservazioni. Se hai 1000 osservazioni e un'enorme varianza, queste bande sono cattive. Se uno ha 1000 osservazioni e una piccola varianza, queste bande avrebbero forse senso.

Qualcuno vuole chiarire questo per me?


2
La tua banda si basa sulla varianza della distribuzione normale asintotica, ma dovrebbe essere basata sulla deviazione standard della distribuzione normale asintotica (banda = 1,96 * sqrt ((0,975 * 0,025) / (100 * (f_norm) ^ 2)), e allo stesso modo per la distinzione di Pareto generalizzata.) Prova invece a vedere cosa succede.
jbowman,

@jbowman grazie per averlo sottolineato! Lo aggiusterò !
Erosennin,

@jbowman che rende la band più piccola e nell'esempio con il mio R-code che in realtà dà qualche hit in meno. È stato anche un altro errore che ha sbagliato il calcolo, ma ora l'ho risolto. Mi hai portato a questo, quindi lo apprezzo molto! Bande più piccole nel caso del PIL sono un'ottima notizia, ma temo che siano ancora così enormi da essere impossibili da usare. Non riesco ancora a vedere altro da asporto che la dimensione del campione della relazione e la varianza è ciò che dovrebbe essere grande, non solo la dimensione del campione.
Erosennin,

Nessun problema! Noto che hai correttamente un davanti alla tua prima formula; se dividi entrambe le parti per quello, come in , ciò può aiutare. Mi dispiace che mi sia perso la prima volta. (Forse hai risolto anche questo, ma non hai aggiornato le parti pertinenti della domanda.)(n)band = 1.96*sqrt((0.975*0.025)/(100*n*(f_norm)^2))
jbowman,

1
Sì, non ho prestato attenzione. OTOH, quando eseguo il tuo codice, cambiando sd = 1 in sd = 2 ovunque, ottengo quasi esattamente la stessa frazione di hit entrambe le volte al quantile 0,975: 0,9683 e 0,9662 rispettivamente. Mi chiedo se ti sei perso un sd = 1 da qualche parte nella corsa ? σ=2
jbowman,

Risposte:


3

Suppongo che la tua derivazione provenga da qualcosa di simile a quello in questa pagina .

Ho una distribuzione con solo risultati positivi e gli intervalli di confidenza includono valori negativi.

Bene, data la normale approssimazione che ha senso. Non c'è nulla che impedisca a un'approssimazione normale di fornire valori negativi, motivo per cui è un'approssimazione errata per un valore limitato quando la dimensione del campione è piccola e / o la varianza è grande. Se aumenti la dimensione del campione, gli intervalli si ridurranno perché la dimensione del campione è nel denominatore dell'espressione per la larghezza dell'intervallo. La varianza entra nel problema attraverso la densità: per la stessa media, una varianza più alta avrà una densità diversa, più alta ai margini e più bassa vicino al centro. Una densità inferiore indica un intervallo di confidenza più ampio perché la densità è nel denominatore dell'espressione.

Un po 'di googling hanno trovato questa pagina , tra gli altri, che utilizza la normale approssimazione alla distribuzione binomiale per costruire i limiti di confidenza. L'idea di base è che ogni osservazione scende al di sotto del quantile con probabilità q , quindi la distribuzione è binomiale. Quando la dimensione del campione è sufficientemente grande (questo è importante), la distribuzione binomiale è ben approssimata da una distribuzione normale con media e varianza . Quindi il limite di confidenza inferiore avrà indice e il limite di confidenza superiore avrà indice . C'è la possibilità che oppurenqnq(1q)j=nq1.96nq(1q)k=nq1.96nq(1q)k>nj<1 quando si lavora con quantili vicino al bordo e il riferimento che ho trovato è silenzioso su questo. Ho scelto di considerare solo il massimo o il minimo come valore rilevante.

Nella seguente riscrittura del tuo codice ho costruito il limite di confidenza sui dati empirici e testato per vedere se il quantile teorico rientra in quello. Questo ha più senso per me, perché il quantile del set di dati osservato è la variabile casuale. La copertura per n> 1000 è ~ 0,95. Per n = 100 è peggio a 0,85, ma è prevedibile per i quantili vicino alle code con campioni di piccole dimensioni.

#find 0.975 quantile
q <- 0.975
q_norm <- qnorm(q, mean=1, sd=1)

#confidence bands absolute value (note depends on sample size)
n <- 10000
band <- 1.96 * sqrt(n * q * (1 - q))

hit<-1:10000
for(i in 1:10000){
  d<-sort(rnorm(n, mean=1, sd=1))
  dq<-quantile(d, probs=q)
  u <- ceiling(n * q + band)
  l <- ceiling(n * q - band)
  if (u > n) u = n
  if (l < 1) l = 1
  if(q_norm>=d[l] & q_norm<=d[u]) {hit[i]=1} else {hit[i]=0} 

}
sum(hit)/10000

Per quanto riguarda la determinazione della dimensione del campione "abbastanza grande", beh, meglio è più grande. Il fatto che un determinato campione sia "abbastanza grande" dipende fortemente dal problema attuale e da quanto sei esigente riguardo ad aspetti come la copertura dei tuoi limiti di confidenza.


Grazie per aver contribuito! Ho sottolineato che non vedo come esista un campione "grande" assoluto, e si deve tenere conto della varianza. Sono curioso di sapere come ciò si collega al mio modo di costruire gli elementi della configurazione, ma anche in generale. Per quanto riguarda la derivazione, puoi ad esempio vedere qui: math.mcgill.ca/~dstephens/OldCourses/556-2006/… I CI che ho costruito segue l'esempio in quel link. Scrivi che "Ho costruito il limite di confidenza sui dati empirici ..." e questo ha più senso per te. Puoi per favore approfondire un po 'di più su questo irt il mio CI?
Erosennin,

Ah, sì, avevi il giusto link di derivazione. Scusa colpa mia.
Erosennin,

OK, l'ho modificato di nuovo per descrivere correttamente come la varianza della distribuzione influisce sull'approssimazione che stai usando, e un po 'più di discussione sul significato di un campione "grande". Il tuo CI è centrato sul valore teorico, mentre il mio è centrato su quello empirico. Penso che per confrontare un quantile empirico con uno teorico gli intervalli dovrebbero essere costruiti sul quantile empirico. Anche l'approssimazione che ho usato rende un'approssimazione in meno "normale" perché non c'è alcun appello al teorema del limite centrale per iniziare.
Atiretoo - Ripristina Monica

Apprezzo lo sforzo, forse la mia domanda potrebbe essere più chiara. Ho già capito come la densità e la dimensione del campione influenzino la varianza, questo era il mio punto di vista in primo luogo. Ma, di nuovo, mio ​​male, avrei potuto essere più chiaro. È l '"asintotico" che ritengo debba essere scambiato con qualcosa che tenga conto della varianza. Bene, hai anche centrato i tuoi CI attorno ai valori teorici. n * q è esattamente il tuo valore teorico. Nel costruire le tue band, hai essenzialmente fatto la stessa cosa di me, solo con un metodo diverso.
Erosennin,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.