In che misura il bootstrap si avvicina alla distribuzione campionaria di uno stimatore?


29

Avendo recentemente studiato il bootstrap, mi è venuta in mente una domanda concettuale che ancora mi confonde:

Hai una popolazione e vuoi conoscere un attributo della popolazione, ad esempio , dove uso per rappresentare la popolazione. Questo potrebbe essere la popolazione media per esempio. Di solito non è possibile ottenere tutti i dati dalla popolazione. Quindi si estrae un campione di dimensione dalla popolazione. Supponiamo che tu abbia il campione per semplicità. Quindi ottieni il tuo stimatore . Vuoi usare per fare inferenze suP θ X N θ = g ( X ) θ θθ=g(P)PθXNθ^=g(X)θ^θ , quindi volete conoscere la variabilità di .θ^

Innanzitutto, esiste una vera distribuzione campionaria di . Concettualmente, potresti prelevare molti campioni (ognuno di essi ha la dimensione ) dalla popolazione. Ogni volta che si avrà una realizzazione di θ = g ( X ) dato che ogni volta che si avrà un altro campione. Poi, alla fine, si sarà in grado di recuperare la vera distribuzione di θ . Ok, questo almeno è il punto di riferimento concettuale per la stima della distribuzione di θ . Permettetemi di ribadirlo: l'obiettivo finale è quello di utilizzare vari metodi per stimare o approssimare la vera distribuzione diNθ^Nθ^=g(X)θ^θ^θ^ .

Ora, ecco la domanda. Di solito, hai solo una esempio che contiene N punti dati. Poi ricampionate da questo campione molte volte, e si arriva con una distribuzione bootstrap di θ . La mia domanda è: quanto vicino è questa distribuzione bootstrap alla vera distribuzione campionaria di θ ? C'è un modo per quantificarlo?XNθ^θ^


1
Questa domanda altamente correlata contiene moltissime informazioni aggiuntive, al punto da rendere questa domanda probabilmente un duplicato.
Xi'an,

Innanzitutto, grazie a tutti per aver risposto alle mie domande così prontamente. Questa è la prima volta che utilizzo questo sito Web. Non mi sarei mai aspettato che la mia domanda attirasse l'attenzione di chiunque onestamente. Ho una piccola domanda qui, che cos'è "OP"? @ Silverfish
KevinKim

@Chen Jin: "OP" = poster originale (cioè tu!). Scuse per l'uso di un'abbreviazione, che accetto è potenzialmente confusa.
Silverfish,

1
Ho modificato il titolo in modo che corrisponda più da vicino la sua dichiarazione che "la mia domanda è: quanto vicino è questo il vero distribuzione di θ ? C'è un modo per quantificarlo?" Sentiti libero di ripristinarlo se non pensi che la mia modifica rifletta le tue intenzioni. θ^
Silverfish,

@Silverfish Grazie mille. Quando inizio questo poster, in realtà non sono del tutto sicuro della mia domanda. Questo nuovo titolo è buono.
Kevin Kim

Risposte:


20

Nella Teoria dell'Informazione, il modo tipico di quantificare la "vicinanza" tra una distribuzione e l'altra è usare la divergenza KL

Proviamo a illustrarlo con un set di dati a coda lunga molto inclinato - ritardi degli arrivi di aerei nell'aeroporto di Houston (dal pacchetto hflights ). Diciamo θ essere lo stimatore media. In primo luogo, troviamo la distribuzione campionaria di θ , e quindi la distribuzione bootstrap di θθ^θ^θ^

Ecco il set di dati:

inserisci qui la descrizione dell'immagine

La vera media è 7,09 min.

In primo luogo, facciamo un certo numero di campioni per ottenere la distribuzione campionaria di θ , poi prendiamo un campione e prendere molti campioni bootstrap da esso.θ^

Ad esempio, diamo un'occhiata a due distribuzioni con le dimensioni del campione 100 e 5000 ripetizioni. Vediamo visivamente che queste distribuzioni sono abbastanza separate e la divergenza di KL è 0,48.

inserisci qui la descrizione dell'immagine

Ma quando aumentiamo la dimensione del campione a 1000, iniziano a convergere (la divergenza di KL è 0,11)

inserisci qui la descrizione dell'immagine

E quando la dimensione del campione è 5000, sono molto vicini (la divergenza KL è 0,01)

inserisci qui la descrizione dell'immagine

Questo, ovviamente, dipende da quale campione bootstrap che si ottiene, ma credo che si può vedere che la divergenza KL va giù come aumentiamo la dimensione del campione, e la distribuzione quindi bootstrap di θ approcci campione distribuzione θθ^θ^ in termini di KL divergenza. A dire il vero, puoi provare a fare diversi bootstrap e prendere la media della divergenza KL.

Ecco il codice R di questo esperimento: https://gist.github.com/alexeygrigorev/0b97794aea78eee9d794


5
+1 e questo dimostra anche che per ogni data dimensione del campione (come ad es. 100), la distorsione di avvio può essere grande e inevitabile.
ameba dice di reintegrare Monica il

θ^θ^N

La mia prossima domanda è: se ho riparato abbastanza grande, allora ho fatto 2 bootstrap, uno semplicemente ricampiona B = 10 volte e l'altro ricampiona B = 10000 . Qual è la differenza tra la distribuzione di θ che esce da questi 2 bootstrap? Questa domanda chiede, in sostanza, quando fissiamo N , qual è il ruolo svolto dalla B nella generazione di distribuzione di θ . @GrigorevNB=10B=10000θ^NBθ^
KevinKim

1
@Chen, ma la distribuzione di θ è qualcosa che si ottiene facendo ricampiona, giusto? Quindi la differenza tra B = 10 e B = 10000 è che in un caso ottieni 10 numeri per costruire la tua distribuzione (non molte informazioni stima non molto affidabile della sua deviazione standard), e in altri casi ottieni 10000 numeri (molto altro affidabile). θ^B=10B=100001010000
ameba dice di reintegrare Monica il

1
@Chen, penso che tu sia o un po 'confuso o non sia molto chiaro su ciò che nel tuo commento dovrebbe essere. Se si ricampiona 5 volte, si ottiene un set di 5 numeri. Come è una distribuzione? È un insieme di numeri! Questi numeri provengono da ciò che hai chiamato distribuzione F B. I numeri più si ottiene, meglio si può stimare F B . F555FBFB
ameba dice di reintegrare Monica il

23

Bootstrap è basato sulla convergenza della CDF empirica alla vera CDF,

F^n(x)=1ni=1nIXixXiiidF(x)
nF(x)xθ^(X1,,Xn)=g(F^n)n x
n{F^n(x)F(x)}distN(0,F(x)[1F(x)])
even though this rate and limiting distribution does not automatically transfer to g(F^n). In practice, to assess the variability of the approximation, you can produce a bootstrap evaluation of the distribution of g(F^n) by double-bootstrap, i.e., by bootstrapping bootstrap evaluations.

As an update, here is an illustration I use in class: enter image description here where the lhs compares the true cdf F with the empirical cdf F^n for n=100 observations and the rhs plots 250 replicas of the lhs, for 250 different samples, in order to measure the variability of the cdf approximation. In the example I know the truth and hence I can simulate from the truth to evaluate the variability. In a realistic situation, I do not know F and hence I have to start from F^n instead to produce a similar graph.

Further update: Here is what the tube picture looks like when starting from the empirical cdf: enter image description here


5
The crux of this answer is that the bootstrap works because it is a large-sample approximation. I don't think this point is emphasized enough
shadowtalker

2
I mean, "emphasized often enough in general"
shadowtalker

@Xi'an Thanks a lot. I like the last 2 panels, so in this example, let's pretend we don't know the true cdf, i.e. the red curve on the lhs, I just have the empirical cdf F^ from one sample of n=100. Then I do resampling from this sample. Then I produce a similar graph as the rhs. Will this new graph has a wider tube than the current tube on your current rhs figure? And will the new tube still centered around the true cdf, i.e. the red curve as the tube on you current rhs figure?
KevinKim

3
Il tubo prodotto creando cdf empirici basati su campioni creati da un cdf empirico è infine meno largo di quello prodotto dal vero F poiché usiamo sempre lo stesso ndatapoints. E il nuovo tubo è incentrato sul cdf empirico, non sul veroF. Vi è quindi una distorsione in scala e posizione per quel tubo.
Xi'an,

@ Xi'an Molto bello! sarebbe ancora più bello se la seconda e la terza cifra
potessero
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.