Ipotesi relative alle stime di incertezza del bootstrap


62

Apprezzo l'utilità del bootstrap per ottenere stime di incertezza, ma una cosa che mi ha sempre infastidito è che la distribuzione corrispondente a tali stime è la distribuzione definita dal campione. In generale, sembra una cattiva idea credere che le nostre frequenze di campionamento assomiglino esattamente alla distribuzione sottostante, quindi perché è ragionevole / accettabile derivare stime di incertezza basate su una distribuzione in cui le frequenze di campionamento definiscono la distribuzione sottostante?

D'altra parte, questo potrebbe non essere peggiore (forse migliore) di altre ipotesi distributive che facciamo in genere, ma mi piacerebbe ancora capire un po 'meglio la giustificazione.


3
Esistono diverse domande correlate che potresti voler esaminare. Alcuni sono elencati sul margine laterale di questa pagina. Ecco uno riguardante quando il bootstrap fallisce e cosa significa che fallisce.
cardinale

Risposte:


55

Esistono diversi modi in cui è possibile applicare il bootstrap. I due approcci più elementari sono quelli che sono considerati bootstrap "non parametrici" e "parametrici". Il secondo presuppone che il modello che stai utilizzando sia (essenzialmente) corretto.

Concentriamoci sul primo. Si suppone che si dispone di un campione casuale X1,X2,,Xn distribuito in base alla funzione di distribuzione F . (Supponendo che altrimenti richiede approcci modificati.) Sia F n ( x ) = n - 1 Σ n i = 1 1 ( X ix ) è la funzione di ripartizione empirica. Gran parte della motivazione per il bootstrap deriva da un paio di fatti.F^n(x)=n1i=1n1(Xix)

Disuguaglianza di Dvoretzky – Kiefer – Wolfowitz

P(supxR|F^n(x)F(x)|>ε)2e2nε2.

Ciò mostra che la funzione di distribuzione empirica converge uniformemente alla vera funzione di distribuzione esponenzialmente veloce nella probabilità. In effetti, questa disuguaglianza unita al lemma di Borel – Cantelli mostra immediatamente che quasi sicuramente.supxR|F^n(x)F(x)|0

Non ci sono condizioni aggiuntive sulla forma di per garantire questa convergenza.F

Euristicamente, quindi, se siamo interessati a qualche funzionale della funzione di distribuzione che è liscia , allora ci aspettiamo che sia vicino a .T(F)T(F^n)T(F)

(Punto di vista) Sfarzosità diF^n(x)

Per semplice linearità di aspettativa e definizione di , per ogni ,F^n(x)xR

EFF^n(x)=F(x).

Supponiamo di essere interessati alla media . Quindi l'imparzialità della misura empirica si estende all'imparzialità dei funzionali lineari della misura empirica. Quindi, μ=T(F)

EFT(F^n)=EFX¯n=μ=T(F).

Quindi è corretto in media e poiché sta rapidamente avvicinando a , quindi (euristicamente), si avvicina rapidamente a .T(F^n)Fn^FT(F^n)T(F)

Per costruire un intervallo di confidenza ( che è, essenzialmente, ciò di cui tratta il bootstrap ), possiamo usare il teorema del limite centrale, la coerenza dei quantili empirici e il metodo delta come strumenti per passare da semplici funzionali lineari a statistiche di interesse più complicate .

Buone referenze sono

  1. B. Efron, metodi Bootstrap: un altro sguardo al coltello a serramanico , Ann. Statistica. , vol. 7, n. 1, 1–26.
  2. B. Efron e R. Tibshirani, An Introduction to the Bootstrap , Chapman – Hall, 1994.
  3. GA Young e RL Smith, Essentials of Statistical Inference , Cambridge University Press, 2005, capitolo 11 .
  4. AW van der Vaart, Statistica asintotica , Cambridge University Press, 1998, capitolo 23 .
  5. P. Bickel e D. Freedman, Qualche teoria asintotica per il bootstrap . Ann. Statistica. , vol. 9, n. 6 (1981), 1196–1217.

Molto bello, @cardinale (+1).

Spiegazione chiara, riferimenti forniti, risposta eccellente.
vesszabo il

solo a pensare, la condizione che sia un "campione casuale" di è in realtà un luogo in cui le cose si rompono. Ad esempio, usando un campione di una popolazione di Facebook. Se vuoi dedurre sugli utenti di Facebook, bootstrap funzionerà. Se vuoi dedurre sulla popolazione generale, bootstrap non aiuta qui, perché la non è la distribuzione degli interessi. XiFF(x)
Probislogic,

12

Ecco un approccio diverso a pensarci:

Inizia con la teoria in cui conosciamo la vera distribuzione, possiamo scoprire le proprietà delle statistiche campione simulando dalla vera distribuzione. È così che Gosset ha sviluppato la distribuzione t e il test t, campionando da normali note e calcolando la statistica. Questa è in realtà una forma del bootstrap parametrico. Si noti che stiamo simulando per scoprire il comportamento delle statistiche (a volte in relazione ai parametri).

Ora, cosa succede se non conosciamo la distribuzione della popolazione, abbiamo una stima della distribuzione nella distribuzione empirica e possiamo campionarne. Campionando dalla distribuzione empirica (che è nota) possiamo vedere la relazione tra i campioni bootstrap e la distribuzione empirica (la popolazione per il campione bootstrap). Ora deduciamo che la relazione dai campioni bootstrap alla distribuzione empirica è la stessa del campione alla popolazione sconosciuta. Naturalmente quanto bene si traduce questa relazione dipenderà da quanto sia rappresentativo il campione della popolazione.

Ricorda che non stiamo usando i mezzi dei campioni bootstrap per stimare la media della popolazione, usiamo la media del campione per quello (o qualunque sia la statistica di interesse). Ma stiamo usando i campioni bootstrap per stimare le proprietà (diffusione, distorsione) del processo di campionamento. E usare il campionamento da una popolazione nota (che speriamo sia rappresentativa della popolazione di interesse) per imparare gli effetti del campionamento ha senso ed è molto meno circolare.


8

Il trucco (e la puntura) principale del bootstrap è che si tratta di una teoria asintotica: se hai un campione infinito per cominciare, la distribuzione empirica sarà così vicina alla distribuzione effettiva che la differenza è trascurabile.

Sfortunatamente, il bootstrap viene spesso applicato in campioni di piccole dimensioni. La sensazione comune è che il bootstrap abbia dimostrato di funzionare in alcune situazioni molto non asintotiche, ma stai comunque attento. Se la dimensione del tuo campione è troppo piccola, stai effettivamente lavorando in modo condizionale sul fatto che il tuo campione sia una "buona rappresentazione" della vera distribuzione, il che porta molto facilmente al ragionamento nei circoli :-)


è un po 'quello che pensavo, ma c'è qualcosa di circolare in questo ragionamento. Non sono uno statistico, ma ho la sensazione che l'inferenza statistica funzioni quando i tuoi stimatori convergono rapidamente, quindi anche se il tuo campione non è convergente sulla distribuzione, le tue inferenze sono solide. In questo caso, facciamo affidamento sull'intera distribuzione giudiziaria per convergere alla distribuzione effettiva. Forse ci sono teoremi che dicono che alcune stime di bootstrap convergono rapidamente, ma generalmente vedo il bootstrap applicato senza fare appello a tali teoremi.
user4733

4
L'apparente ragionamento circolare è il motivo per cui è stato soprannominato il bootstrap. Sembrava che le persone stessero cercando di sollevarsi con i propri bootstrap. Più tardi Efron dimostrò che funzionava davvero.
Greg Snow,

Se la dimensione del campione è davvero ridotta, hai bisogno di molta fiducia in tutti i metodi che usi ...
kjetil b halvorsen,

5

Direi non dal punto di vista "asintoticamente, la distribuzione empirica sarà vicina alla distribuzione effettiva" (che, ovviamente, è molto vera), ma da una "prospettiva a lungo termine". In altre parole, in ogni caso particolare, la distribuzione empirica derivata da bootstrapping sarà disinserito (talvolta spostata troppo questo modo, a volte spostato troppo in questo modo, a volte troppo inclinato in questo modo, a volte troppo inclinato così), ma in media esso sarà una buona approssimazione alla distribuzione effettiva. Allo stesso modo, le stime di incertezza derivate dalla distribuzione bootstrap saranno spente in ogni caso particolare, ma di nuovo, in media, avranno (approssimativamente) ragione.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.