Utilizzo di bootstrap per ottenere la distribuzione campionaria del 1 ° percentile


9

Ho un campione (di dimensioni 250) da una popolazione. Non conosco la distribuzione della popolazione.

La domanda principale: voglio una stima puntuale del primo percentile della popolazione, e quindi voglio un intervallo di confidenza del 95% attorno alla mia stima puntuale.

La mia stima puntuale sarà il primo campione del primo . Lo dico .x

Successivamente, provo a costruire l'intervallo di confidenza attorno alla stima puntuale. Mi chiedo se abbia senso usare bootstrap qui. Sono molto inesperto con bootstrap, quindi scusate se non uso la terminologia appropriata ecc.

Ecco come ho provato a farlo. Traccio 1000 campioni casuali con la sostituzione dal mio campione originale. Ottengo il 1 ° -percentile da ciascuno di essi. Così ho 1000 punti - "il 1 ° -percentiles". Guardo la distribuzione empirica di questi 1000 punti. Indico la media di esso . Indico un "bias" come segue: . Prendo il 2,5 ° -percentile e 97,5 ° percentile della 1000 punti per ottenere il più basso e più alto delle quello che io chiamo un intervallo di confidenza del 95% in tutto il 1 ° -percentile del campione originale. questi punti e . bias = x m e a n - x x 0,025 x 0,975xmeanbias=xmeanxx0.025x0.975

L'ultimo passo che rimane è di adattare questo intervallo di confidenza essere intorno al 1 ° -percentile della popolazione , piuttosto che intorno al 1 ° -percentile del campione originale . Quindi prendo come estremità inferiore e come estremità superiore dell'intervallo di confidenza al 95% attorno alla stima puntuale della popolazione 1 st -percentile. Quest'ultimo intervallo è quello che stavo cercando.x - bias + ( x 0.975 - x m e a n )xbias(xmeanx0.025)xbias+(x0.975xmean)

Un punto cruciale , secondo me, è se ha senso usare bootstrap per il primo percento che è piuttosto vicino alla coda della distribuzione sconosciuta alla base della popolazione. Ho il sospetto che potrebbe essere problematico; pensa a usare bootstrap per costruire un intervallo di confidenza attorno ad un minimo (o un massimo).

Ma forse questo approccio è imperfetto? Per favore mi faccia sapere.

MODIFICARE:

Avendo pensiero circa il problema un po 'più, vedo che la mia soluzione implica la seguente: l'empirico 1 ° percentile del campione originale può essere uno stimatore distorto del 1 ° percentile della popolazione. E in tal caso, la stima puntuale dovrebbe essere modificata in base al bias: . Altrimenti, l'intervallo di confidenza aggiustato per il bias non sarebbe compatibile con la stima del punto di bias non aggiustato. Devo regolare sia la stima puntuale che l'intervallo di confidenza o nessuno di essi.xbias

Se, d'altra parte, non consentissi che la stima fosse distorta, non avrei dovuto effettuare la correzione del bias. Cioè, prenderei come stima del punto e come estremità inferiore e come estremità superiore del 95% intervallo di confidenza. Non sono sicuro che questo intervallo abbia senso ...x - ( x m e a n - x 0.025 ) x + ( x 0.975 - x m e a n )xx(xmeanx0.025)x+(x0.975xmean)

Così fa alcun senso assumere che il campione 1 ° percentile è una stima di parte della popolazione 1 ° percentile? E se no, la mia soluzione alternativa è corretta?


Questo non affronta direttamente la domanda bootstrap, ma potrebbe esserti utile: onlinecourses.science.psu.edu/stat414/node/231
shadowtalker

Risposte:


11

L'inferenza Bootstrap per gli estremi di una distribuzione è generalmente dubbia. Quando si esegue il bootstrap di n-out-of-n il minimo o il massimo nel campione di dimensione , si ha possibilità che tu riproduca la tua osservazione estrema di esempio, e allo stesso modo circa possibilità di riprodurre la tua seconda osservazione estrema, e così via. Ottieni una distribuzione deterministica che ha poco a che fare con la forma della distribuzione sottostante alla coda. Inoltre, il bootstrap non può darti nulla al di sotto del minimo del tuo campione, anche quando la distribuzione ha il supporto al di sotto di questo valore (come nel caso della maggior parte delle distribuzioni continue come dire normale).1 - ( 1 - 1 / n ) n1 - e x p ( - 1 ) = 63,2 % e x p ( - 1 ) - e x p ( - 2 ) = 23,3 %n1(11/n)n1exp(1)=63.2%exp(1)exp(2)=23.3%

Le soluzioni sono complicate e si basano sulle combinazioni di asintotici dalla teoria dei valori estremi e sul sottocampionamento di meno di n osservazioni (in realtà, molto meno, il tasso dovrebbe convergere a zero come ).n


La risposta è utile, ma vorrei avere un'idea di quanto il primo percentile è vicino al minimo rispetto al comportamento bootstrap? Immagino che in campioni molto grandi il 1 ° percentile possa essere considerato "lontano" dal minimo e che i problemi sopra elencati possano essere ignorati, mentre in piccoli campioni il 1 ° percentile sarà il minimo stesso e i problemi contano molto. Quindi siamo nel mezzo. Immagino che la mia dimensione del campione di 250 osservazioni dovrebbe essere considerata piuttosto piccola da questo punto di vista.
Richard Hardy,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.