Perché il bootstrap è utile?


13

Se tutto ciò che stai facendo è ricampionare dalla distribuzione empirica, perché non studiare la distribuzione empirica? Ad esempio, invece di studiare la variabilità mediante campionamenti ripetuti, perché non quantificare semplicemente la variabilità dalla distribuzione empirica?


6
" (In questo senso,) la distribuzione bootstrap rappresenta una distribuzione posteriore (approssimativa) non parametrica, non informativa per il nostro parametro. Ma questa distribuzione bootstrap è ottenuta indolore - senza dover specificare formalmente un precedente e senza dover campionare dalla distribuzione posteriore. potremmo pensare alla distribuzione bootstrap come a un Bayes posteriore di un "povero". "Hastie et al. Gli elementi dell'apprendimento statistico ". Sez. 8.4.
Usεr11852 dice Reinstate Monic

8
Come quantificeremmo l'incertezza delle nostre stime dalla distribuzione empirica?
Usεr11852 dice Reinstate Monic il

2
"In condizioni di moderata regolarità, il bootstrap fornisce un'approssimazione alla distribuzione di uno stimatore o una statistica di test che è almeno accurata quanto l'approssimazione ottenuta dalla teoria asintotica del primo ordine". unc.edu/~saraswat/teaching/econ870/fall11/JH_01.pdf .
jbowman

10
Stai discutendo, non stai cercando di capire. Credetemi, non siete giunti alla conclusione che il bootstrap è inutile in contrasto con quello di molte migliaia di statistici per circa quattro decenni. Non hai letto attentamente la citazione. Penso che non sia riuscito a cogliere il ruolo chiave che la casualità gioca nelle statistiche. Dichiarazioni come "Perché preoccuparsi !!" rispetto a "ottenere una distribuzione di sono ... inusuali, per non dire altro. Se non pensi che sia importante capire la distribuzione delle tue stime, potresti voler considerare perché esiste il campo delle statistiche a tutti, e T(X)
ripensaci

4
@ztyh Dici "se mappi ogni campione da a T ( X ) ottieni una distribuzione di T ( X ) ". Forse dovresti pensarci, come mapperesti un singolo punto da X i a T ( X ) = ˉ X ? O qualsiasi funzione T ( X 1 , X 2 , X n ) per quella materia. XT(X)T(X)XiT(X)=X¯T(X1,X2,Xn)
Knrumsey,

Risposte:


18

Il bootstrap (o altro ricampionamento) è un metodo sperimentale per stimare la distribuzione di una statistica.

È un metodo molto semplice e intuitivo (significa solo che si calcola con molte varianti casuali dei dati di esempio al fine di ottenere, una stima della distribuzione desiderata della statistica).

Molto probabilmente lo usi quando l'espressione "teorica / analitica" è troppo difficile da ottenere / calcolare (o come dice aksakal a volte sono sconosciuti).

  • Esempio 1: se si esegue un'analisi pca e si desidera confrontare i risultati con "stime della deviazione degli autovalori", data l'ipotesi che non vi sia alcuna correlazione nelle variabili.

    Potresti, mescolare i dati molte volte e ricalcolare gli autovalori pca in modo da ottenere una distribuzione (basata su test casuali con i dati di esempio) per gli autovalori.

    Si noti che le pratiche attuali osservano un diagramma ghiaioso e applicano le regole empiriche per "decidere" se un determinato autovalore è significativo / importante o meno.

  • Esempio 2: hai fatto una regressione non lineare y ~ f (x) fornendoti una stima dei gruppi di parametri per la funzione f. Ora desideri conoscere l'errore standard per questi parametri.

    Un semplice sguardo ai residui e all'algebra lineare, come in OLS, non è possibile qui. Tuttavia, un modo semplice è calcolare la stessa regressione molte volte con i residui / errori rimescolati per avere un'idea di come i parametri potrebbero variare (dato che la distribuzione per il termine dell'errore può essere modellata dai residui osservati).


Scritto da StackExchangeStrike


2
Penso che il tuo esempio non sia un bootstrap. Sta solo campionando da una distribuzione nulla nota. Bootstrap è dove hai un campione e ripetutamente campiona di nuovo da quel campione.
ztyh

3
Nella tua domanda immagini di calcolare la varianza di un campione, che è davvero semplice e non richiede il bootstrap. Nel mio esempio parlo di una situazione in cui abbiamo un valore derivato dal campione. Quindi non possiamo più semplicemente calcolare una varianza, tuttavia desideriamo sapere come varia. Riscrivendo i dati molte volte e ricalcolando gli autovalori pca è possibile ottenere tali dati di distribuzione (casuali) che seguono la distribuzione del campione. Se non sbaglio questo si chiama bootstrap.
Sesto Empirico

Ok, vedo dove stavo fraintendendo le cose. Il tuo esempio ha un senso. Grazie.
ztyh

8

La cosa fondamentale è che il bootstrap non è in realtà per capire le caratteristiche della distribuzione dei dati , ma piuttosto per capire le caratteristiche di uno stimatore applicato ai dati.

Qualcosa come la funzione di distribuzione empirica ti dirà una stima abbastanza buona del CDF da cui provengono i dati ... ma isolando, non ti dice praticamente nulla su quanto saranno affidabili gli stimatori che costruiamo da quei dati. Questa è la domanda a cui si risponde utilizzando bootstrap.


1
Usare il bootstrap (non parametrico) per trovare "la distribuzione dei dati" sarebbe una risata: si tratta semplicemente della funzione di distribuzione empirica, che è esattamente l'insieme di dati con cui l'analista ha iniziato. Mi ricorda l'algebra del college quando "risolvo per X" e trovo "X = X".
AdamO

3

Se sai esattamente qual è la distribuzione sottostante, non è necessario studiarla. A volte, nelle scienze naturali conosci esattamente la distribuzione.

Se conosci il tipo di distribuzione, devi solo stimarne i parametri e studiarlo nel senso che intendevi. Ad esempio, a volte sai a priori che la distribuzione sottostante è normale. In alcuni casi sai anche qual è la sua media. Quindi, per normale, l'unica cosa che resta da scoprire è la deviazione standard. Ottieni la deviazione standard del campione dal campione e, voilà, ottieni la distribuzione per studiare.

Se non sai quale sia la distribuzione, ma pensi che sia una delle tante nell'elenco, quindi potresti provare ad adattare quella distribuzione ai dati e scegliere quella che si adatta meglio. ALLORA studi quella distribuzione.

FINALMENTE, spesso non conosci il tipo di distribuzione con cui hai a che fare. E non hai motivo di credere che appartiene a una delle 20 distribuzioni a cui R può adattarsi i tuoi dati. Che cosa hai intenzione di fare? Ok, guardi le deviazioni medie e standard, bello. E se fosse molto inclinato? E se la sua curtosi è molto grande? e così via. Hai davvero bisogno di conoscere tutti i momenti della distribuzione a sapere e studiarlo. Quindi, in questo caso il bootstrap non parametrico è utile. Non si assume molto, e semplice esempio da esso, quindi si studiano i suoi momenti e altre proprietà.

Sebbene il bootstrap non parametrico non sia uno strumento magico, ha dei problemi. Ad esempio, può essere di parte. Penso che il bootstrap parametrico sia imparziale


1
Penso che anche se non conoscessi la vera distribuzione, molti momenti sono facili da calcolare. Quindi penso che il problema non sia non conoscere il tipo di distribuzione con cui hai a che fare. Piuttosto si tratta di che tipo di statistica stai cercando di studiare. Alcune statistiche potrebbero essere difficili da calcolare e solo allora è utile bootstrap.
ztyh

Come nel commento all'interrogazione a usεr11852, in realtà ho dei dubbi sui benefici anche per quanto riguarda la calcolabilità delle statistiche ...
ztyh

In realtà penso che sia ancora un gioco da ragazzi. Si mappa ogni campione aln(x3+x)

1
xzf(x,z)x,z

1
fxzf(x,z)
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.