È vero che il bootstrap percentile non dovrebbe mai essere usato?


31

Nelle note del MIT OpenCourseWare per la 18.05 Introduzione a Probabilità e statistiche, primavera 2014 (attualmente disponibile qui ), si afferma:

Il metodo percentile bootstrap è attraente per la sua semplicità. Tuttavia dipende dalla distribuzione bootstrap di base al fatto che un particolare campione rappresenta una buona approssimazione alla vera distribuzione di . Rice afferma del metodo percentile, "Sebbene questa equazione diretta dei quantili della distribuzione campionaria bootstrap con limiti di confidenza possa sembrare inizialmente allettante, la sua logica è alquanto oscura." [2] In breve, non usare il metodo percentile bootstrap . Usa invece il bootstrap empirico (abbiamo spiegato entrambi nella speranza che non confonderai il bootstrap empirico per il bootstrap percentile).x¯x¯

[2] John Rice, Statistica matematica e analisi dei dati , 2a edizione, pag. 272

Dopo un po 'di ricerche online, questa è l'unica citazione che ho trovato che afferma chiaramente che il bootstrap percentile non dovrebbe essere usato.

Quello che ricordo leggendo dal testo Principi e teoria per il data mining e l'apprendimento automatico di Clarke et al. è che la principale giustificazione per il bootstrap è il fatto che dove è il CDF empirico. (Non ricordo dettagli oltre a questo.) F n

1ni=1nF^n(x)pF(x)
F^n

È vero che il metodo percentile bootstrap non dovrebbe essere usato? In tal caso, quali alternative ci sono quando non è necessariamente noto (ovvero, non sono disponibili informazioni sufficienti per eseguire un bootstrap parametrico)?F


Aggiornare

Poiché è stato richiesto un chiarimento, il "bootstrap empirico" da queste note del MIT fa riferimento alla seguente procedura: calcolano e con le stime avviate da boot di e la stima del campione completo di e l'intervallo di confidenza stimato risultante sarebbe . δ 2 = ( θ * - θ ) 1 - α / 2 θ * θ θ θ [ θ - δ 2 , θ - δ 1 ]δ1=(θ^θ^)α/2δ2=(θ^θ^)1α/2θ^θθ^θ[θ^δ2,θ^δ1]

In sostanza, l'idea principale è questa: il bootstrap empirico stima un importo proporzionale alla differenza tra la stima puntuale e il parametro effettivo, ovvero, , e usa questa differenza per trovare il valore inferiore e limiti CI superiori.θ^θ

Il "bootstrap percentile" si riferisce a quanto segue: usa come intervallo di confidenza per . In questa situazione, utilizziamo il bootstrap per calcolare le stime del parametro di interesse e prendere i percentili di queste stime per l'intervallo di confidenza.θ[θ^α/2,θ^1α/2]θ


2
Ho fortemente modificato il tuo aggiornamento. Verifica che la mia modifica abbia senso. Le tue citazioni dal libro di Efron erano confuse perché ciò che descrive Efron non corrisponde a ciò che le tue note del MIT chiamano "bootstrap empirico". Quindi ho appena lasciato la descrizione di ciò che fanno le note del MIT. A proposito, sono confuso su una cosa nella loro descrizione del "bootstrap empirico": in cima alla pagina 6 dice "Dato che è al 90 ° percentile ..." - Io don capisco questo. è chiaro che il lato sinistro viene dato sottraendo il 90 ° percentile, ovvero il tuo . δ 2δ.1δ2
ameba dice Ripristina Monica il

2
@amoeba le tue modifiche sono corrette. Grazie per l'aiuto in tutto. Penso che ci siano alcuni problemi con le note del MIT; la loro descrizione delle difficoltà con i bootstrap percentili non era molto chiara e la loro argomentazione contro di loro è principalmente un appello all'autorità. Non ho potuto riprodurre il loro ultimo esempio numerico contro il bootstrap percentile. Non pensare che abbiano elaborato alcuni dettagli oltre a quelli che abbiamo fatto mentre abbiamo affrontato questa utile domanda, e quindi il loro testo potrebbe presentare alcune carenze, come fai notare.
EdM,

Guardando quella nota del MIT, non vedo come gli autori abbiano ottenuto gli intervalli di confidenza nella sezione 9 "Il metodo percentile bootstrap (non dovrebbe essere usato)" di [37.4, 42.4]. Sembra che il campione che stanno usando non sia lo stesso di quello nella sezione 6, a cui stanno facendo il confronto. Se prendiamo il campione per δ ∗ = x ∗ - x riportato nella parte inferiore della pagina 5 e sommiamo la media del campione di 40.3 e prendiamo gli EC, i limiti che ottengo sono [38.9, 41.9] che ha la stessa larghezza di 3 come limiti riportati nella sezione 6 di [38.7, 41.7].
Confuso il

Risposte:


21

Ci sono alcune difficoltà che sono comuni a tutte le stime non parametriche del bootstrap degli intervalli di confidenza (CI), alcune che sono più problematiche sia per il "empirico" (chiamato "base" nella boot.ci()funzione del bootpacchetto R che nel Rif. 1 ) e le stime degli elementi della configurazione "percentile" (come descritto nel Rif. 2 ) e alcune che possono essere esacerbate con gli elementi della configurazione percentili.

TL; DR : in alcuni casi le stime degli elementi di avvio percentili del bootstrap potrebbero funzionare in modo adeguato, ma se alcuni presupposti non valgono, l'IC del percentile potrebbe essere la scelta peggiore, con il bootstrap empirico / di base il peggiore successivo. Altre stime CI bootstrap possono essere più affidabili, con una migliore copertura. Tutto può essere problematico. Osservare i grafici diagnostici, come sempre, aiuta a evitare potenziali errori causati dall'accettazione dell'output di una routine software.

Configurazione Bootstrap

Generalmente seguendo la terminologia e gli argomenti del Rif. 1 , abbiamo un campione di dati tratto da variabili casuali indipendenti e identicamente distribuite che condividono una funzione di ripartizione . La funzione di ripartizione empirica (FES) costruito dal campione di dati è . Siamo interessati a un caratteristico della popolazione, stimato da una statistica cui valore nel campione è . Vorremmo sapere quanto stima , ad esempio, la distribuzione di .Y i F F θ T t T θ ( T - θ )y1,...,ynYiFF^θTtTθ(Tθ)

Il bootstrap non parametrico utilizza il campionamento da EDF per imitare il campionamento da , prelevando campioni ciascuno della dimensione con la sostituzione da . I valori calcolati dai campioni bootstrap sono indicati con "*". Ad esempio, la statistica calcolata sul campione bootstrap j fornisce un valore . FRnyiTT * jF^FRnyiTTj

CI di bootstrap empirici / di base contro percentili

Il bootstrap empirico / di base utilizza la distribuzione di tra i campioni bootstrap da per stimare la distribuzione di all'interno della popolazione descritta da stesso. Le sue stime CI sono quindi basate sulla distribuzione di , dove è il valore della statistica nel campione originale.R F ( T - θ ) F ( T * - t ) t(Tt)RF^(Tθ)F(Tt)t

Questo approccio si basa sul principio fondamentale del bootstrap ( Rif. 3 ):

La popolazione è nel campione come il campione è nei campioni bootstrap.

Il bootstrap percentile utilizza invece i quantili dei valori stessi per determinare l' della . Queste stime possono essere abbastanza diverse se ci sono inclinazioni o distorsioni nella distribuzione di .Tj(Tθ)

Supponiamo che vi sia una distorsione osservata tale che: ˉ T = t + B ,B

T¯=t+B,

dove è la media di . Per concretezza, supponiamo che il 5 ° e il 95 ° percentile del siano espressi come e , dove è la media sui campioni bootstrap e sono entrambi positivi e potenzialmente diversi per consentire l'inclinazione. Le stime basate su percentili del 5o e 95o CI sarebbero fornite direttamente rispettivamente da:Tj Tj ˉ T-δ1 ˉ T+δ2 ˉ Tδ1,δ2T¯TjTjT¯δ1T¯+δ2T¯δ1,δ2

T¯δ1=t+Bδ1;T¯+δ2=t+B+δ2.

Le stime CI del 5o e 95o percentile secondo il metodo bootstrap empirico / di base sarebbero rispettivamente ( Rif. 1 , eq. 5.6, pagina 194):

2t(T¯+δ2)=tBδ2;2t(T¯δ1)=tB+δ1.

Pertanto , gli elementi della configurazione basati su percentili ottengono entrambi errori di polarizzazione e ribaltano le direzioni delle posizioni potenzialmente asimmetriche dei limiti di confidenza attorno a un centro doppiamente distorto . In questo caso, gli elementi percentuali degli elementi della configurazione percentuali dal bootstrap non rappresentano la distribuzione di .(Tθ)

Questo comportamento è ben illustrato in questa pagina , per il bootstrap di una statistica così distorta in modo negativo che la stima del campione originale è inferiore agli IC del 95% in base al metodo empirico / di base (che include direttamente un'appropriata correzione del bias). Gli IC del 95% basati sul metodo percentile, disposti attorno a un centro doppiamente negativamente distorto, sono in realtà entrambi al di sotto anche della stima del punto negativamente distorta dal campione originale!

Il bootstrap percentile non dovrebbe mai essere usato?

Potrebbe essere un'esagerazione o un eufemismo, a seconda della tua prospettiva. Se è possibile documentare una distorsione e un'inclinazione minime, ad esempio visualizzando la distribuzione di con istogrammi o grafici di densità, il bootstrap percentile dovrebbe fornire essenzialmente lo stesso CI dell'EM empirico / di base. Questi sono probabilmente entrambi migliori della semplice approssimazione normale all'IC.(Tt)

Nessuno dei due approcci, tuttavia, fornisce l'accuratezza della copertura che può essere fornita da altri approcci bootstrap. Efron sin dall'inizio ha riconosciuto le potenziali limitazioni degli EC percentili, ma ha dichiarato: "Per lo più saremo contenti di lasciare che i vari gradi di successo degli esempi parlino da soli". ( Rif. 2 , pagina 3)

Il lavoro successivo, riassunto ad esempio da DiCiccio ed Efron ( Rif. 4 ), ha sviluppato metodi che "migliorano di un ordine di grandezza sulla precisione degli intervalli standard" forniti dai metodi empirici / basici o percentili. Quindi si potrebbe sostenere che non si dovrebbero usare né i metodi empirici / basici né i metodi percentili, se ci si preoccupa dell'accuratezza degli intervalli.

In casi estremi, ad esempio il campionamento diretto da una distribuzione lognormale senza trasformazione, nessuna stima CI avviata potrebbe essere affidabile, come ha osservato Frank Harrell .

Cosa limita l'affidabilità di questi e altri elementi della configurazione con avvio automatico?

Diversi problemi possono tendere a rendere inattendibili gli elementi della configurazione di avvio automatico. Alcuni si applicano a tutti gli approcci, altri possono essere alleviati da approcci diversi dai metodi empirici / di base o percentili.

La prima, generale, problema è come bene il empirica della distribuzione rappresenta la distribuzione della popolazione . In caso contrario, nessun metodo di bootstrap sarà affidabile. In particolare, il bootstrap per determinare qualcosa vicino a valori estremi di una distribuzione può essere inaffidabile. Questo problema è discusso altrove su questo sito, ad esempio qui e qui . I pochi valori discreti disponibili nelle code di per un particolare campione potrebbero non rappresentare molto bene le code di una continua . Un caso estremo ma illustrativo sta cercando di utilizzare il bootstrap per stimare la statistica dell'ordine massimo di un campione casuale da un'uniforme F F FF^FF^FU[0,θ]distribuzione, come spiegato bene qui . Si noti che gli elementi di configurazione 95% o 99% avviati al boot sono essi stessi alla coda di una distribuzione e quindi potrebbero soffrire di un tale problema, in particolare con campioni di piccole dimensioni.

In secondo luogo, non v'è alcuna garanzia che il campionamento di qualsiasi quantitativo da avrà la stessa distribuzione di campionamento da . Tuttavia, tale presupposto è alla base del principio fondamentale del bootstrap. Le quantità con quella proprietà desiderabile sono chiamate fondamentali . Come spiega AdamO : FF^F

Ciò significa che se il parametro sottostante cambia, la forma della distribuzione viene spostata solo da una costante e la scala non cambia necessariamente. Questo è un presupposto forte!

Ad esempio, se c'è parzialità è importante sapere che il campionamento da intorno a è lo stesso del campionamento da intorno a . E questo è un problema particolare nel campionamento non parametrico; come rif. 1 lo mette a pagina 33:θ F tFθF^t

In problemi non parametrici la situazione è più complicata. È ora improbabile (ma non strettamente impossibile) che qualsiasi quantità possa essere esattamente fondamentale.

Quindi il meglio che di solito è possibile è un'approssimazione. Questo problema, tuttavia, può spesso essere affrontato in modo adeguato. È possibile stimare quanto sia fondamentale una quantità campionata rispetto al perno, ad esempio con i grafici a perno come raccomandato da Canty et al . Questi possono mostrare come le distribuzioni delle stime bootstrap variano con , o quanto bene una trasformazione fornisce una quantità che è fondamentale. I metodi per migliorare i CI di bootstrap possono provare a trovare una trasformazione tale che sia più vicino al perno per stimare gli EC nella scala trasformata, quindi tornare alla scala originale.t h ( h ( T ) - h ( t ) ) h ( h ( T ) - h ( t ) )(Tt)th(h(T*)-h(t))h(h(T*)-h(t))

La boot.ci()funzione fornisce studentizzato bootstrap CI (chiamato "bootstrap- t " di DiCiccio e Efron ) e CI (bias corretto e accelerato, dove le offerte "accelerazione" con skew) che sono "secondo ordine esatto" dal fatto che la differenza tra la la copertura desiderata e raggiunta (ad esempio, IC al 95%) è nell'ordine di , rispetto solo all'accuratezza del primo ordine (ordine di ) per i metodi empirici / di base e percentili ( Rif 1 , pagg. 212-3; Rif. 4 ). Questi metodi, tuttavia, richiedono di tenere traccia delle varianze all'interno di ciascuno dei campioni , non solo dei singoli valori di α n - 1 n - 0,5 T jBCun'αn-1n-0.5Tj* usato da quei metodi più semplici.

In casi estremi, potrebbe essere necessario ricorrere al bootstrap all'interno dei campioni bootstrap stessi per fornire un'adeguata regolazione degli intervalli di confidenza. Questo "Double Bootstrap" è descritto nella Sezione 5.6 del Rif. 1 , con altri capitoli di quel libro che suggeriscono modi per ridurre al minimo le sue estreme esigenze computazionali.


  1. Davison, AC e Hinkley, metodi DV Bootstrap e loro applicazione, Cambridge University Press, 1997 .

  2. Efron, B. Metodi Bootstrap: un altro sguardo al coltello a serramanico, Ann. Statist. 7: 1-26, 1979 .

  3. Fox, J. e Weisberg, S. Modelli di regressione di bootstrap in R. An Appendice a An R Companion to Applied Regression, Seconda Edizione (Sage, 2011). Revisione al 10 ottobre 2017 .

  4. DiCiccio, TJ ed Efron, B. Intervalli di confidenza Bootstrap. Statistica. Sci. 11: 189-228, 1996 .

  5. Diagnostica e rimedi di Canty, AJ, Davison, AC, Hinkley, DV e Ventura, V. Bootstrap. Può. J. Stat. 34: 5-27, 2006 .


1
Non capisco davvero perché dici che "bootstrap empirico" sarebbe "molto meno sensibile" alle deviazioni dalla distribuzione della popolazione. Il bootstrap percentile e questo "bootstrap empirico" non usano esattamente gli stessi quantili della distribuzione bootstrap? Ho pensato che l'unica differenza fosse che se la distribuzione bootstrap è asimmetrica attorno alla media del campione, gli intervalli da questi due approcci saranno invertiti. Come descritto qui: en.wikipedia.org/wiki/… ("base" vs "percentile").
ameba dice Ripristina Monica il

1
@amoeba differiscono nel modo in cui gestiscono il bias nelle stime bootstrap, non solo nel capovolgere gli intervalli. Questa risposta ha bisogno di più lavoro per separare i problemi del bootstrap empirico rispetto al percentile da problemi relativi alle code delle distribuzioni, che qui ho un po 'confuso e che spero di chiarire in un paio di giorni.
EdM,

1
Non valuto questa risposta perché basato sui riferimenti forniti e sulla logica (molto ragionevole) presentata: " il bootstrap percentile non dovrebbe mai essere usato " è semplicemente una sopravvalutazione, non "un po '". Sì, se possiamo, dovremmo usare una qualche forma di metodo bootstrap corretto da bias, ma no, meglio usare bootstrap percentile per ottenere stime CI in qualche modo inefficienti piuttosto che attaccare senza senso 2SE alla media e pensare di aver scoperto l'America. (Sono in gran parte d'accordo con ciò che dice il corpo principale della risposta, ma non l'ultimo paragrafo poiché ritengo che lasci la porta aperta a
un'interpretazione

1
Sostanzialmente riorganizzato e corretto, in parte in risposta ai commenti.
EdM

1
@Confounded quello che hai scritto equivale al modulo che ho fornito per il bootstrap empirico / di base. Nota che il tuo è , dove è il percentile superiore di interesse tra gli esempi bootstrap. Così . Ho usato per il tuo e ho espresso come media bootstrap più un offset . * θ * U - θ θ * U θ - U * = θ - ( θ * U - θ ) = 2 θ - θ * U t θ θ * UU*θ^U*-θ^θ^U*θ^-U*=θ^-(θ^U*-θ^)=2θ^-θ^U*tθ^θ^U*δ2T¯*δ2
EdM

8

Alcuni commenti su una terminologia diversa tra MIT / Rice e il libro di Efron

Penso che la risposta di EdM abbia fatto un lavoro fantastico nel rispondere alla domanda originale dei PO, in relazione alle note della lezione del MIT. Tuttavia, l'OP cita anche il libro di Efrom (2016) Computer Age Statistical Inference che utilizza definizioni leggermente diverse che possono creare confusione.


Capitolo 11 - Esempio di correlazione del punteggio dello studente

Questo esempio utilizza un campione per il quale il parametro di interesse è la correlazione. Nell'esempio viene osservato come . Efron quindi esegue repliche bootstrap non parametriche per la correlazione del campione dei punteggi degli studenti e traccia l'istogramma dei risultati (pagina 186)B=2000 θ *θ^=0,498B=2000θ^*

inserisci qui la descrizione dell'immagine

Bootstrap con intervallo standard

Definisce quindi il seguente bootstrap con intervallo standard :

θ^±1.96Se^

Per una copertura del 95% dove è considerato l'errore standard bootstrap: , chiamato anche deviazione standard empirica dei valori bootstrap.Se^SeBoot

Deviazione standard empirica dei valori bootstrap:

Lascia che l'esempio originale sia e che l'esempio bootstrap sia . Ogni esempio bootstrap fornisce una replica bootstrap della statistica di interesse: X=(X1,X2,...,Xn)b θ *b=s(x*b) per b=1,2,. . . ,BX*=(X1*,X2*,...,Xn*)B

θ^*B=S(X*B)  per B=1,2,...,B

La stima bootstrap risultante dell'errore standard per èθ^

Se^Boot=[ΣB=1B(θ^*B-θ^*)2/(B-1)]1/2
θ^*=ΣB=1Bθ^*BB

Questa definizione sembra diversa da quella usata nella risposta di EdM:

Il bootstrap empirico / di base utilizza la distribuzione di tra i campioni di bootstrap da per stimare la distribuzione di all'interno della popolazione descritta da stesso.(T*-t)RF^(T-θ)F


Percentuale di bootstrap

Qui, entrambe le definizioni sembrano allineate. Da Efron pagina 186:

Il metodo percentile utilizza la forma della distribuzione bootstrap per migliorare gli intervalli standard. Dopo aver generato repliche utilizziamo quindi i percentili della loro distribuzione per definire i limiti di confidenza percentile .θ * 1 , θ * 2 , . . . , Θ * BBθ^*1,θ^*2,...,θ^*B

In questo esempio, questi sono rispettivamente 0,118 e 0,758.

Citando EdM:

Il bootstrap percentile utilizza invece i quantili dei valori stessi per determinare l'elemento della configurazione.Tj*


Confronto tra il metodo standard e percentile come definito da Efron

Basandosi sulle sue stesse definizioni, Efron fa di tutto per sostenere che il metodo percentile è un miglioramento. Per questo esempio gli elementi della configurazione risultanti sono:

inserisci qui la descrizione dell'immagine


Conclusione

Direi che la domanda originale del PO è allineata alle definizioni fornite da EdM. Le modifiche apportate dall'OP per chiarire le definizioni sono allineate al libro di Efron e non sono esattamente le stesse per CI di bootstrap Empirical vs Standard.

I commenti sono ben accetti


2
Grazie per il chiarimento terminologico. A prima vista, gli elementi della configurazione "intervallo di avvio standard" sembrano essere simili agli elementi della configurazione "normali" prodotti da boot.ci(), in quanto si basano su una normale approssimazione agli errori e sono costretti a essere simmetrici rispetto alla stima del campione di . È diverso dagli elementi della configurazione "empirici / di base", che come elementi della configurazione "percentili" consentono l'asimmetria. Sono rimasto sorpreso dalla grande differenza tra EC "empirici / di base" e EC "percentili" nella gestione dei pregiudizi; Non ci avevo pensato molto fino a quando non ho provato a rispondere a questa domanda. θ
EdM,

Ho appena controllato il manuale per boot.ci(): "Gli intervalli normali usano anche la correzione del bias del bootstrap." Quindi questa sembra essere una differenza dal "bootstrap a intervallo standard" descritto da Efron.
EdM,

Abbastanza giusto - gli intervalli normali descritti nel libro è il caso base da cui costruisce approcci migliori e più precisi (fino a BC e BCa), quindi ha senso che non sia implementato
Xavier Bourret Sicotte

@EdM e Xavier: l' inferenza statistica dell'era dei computer descrive affatto gli elementi della configurazione "empirici / di base"? In tal caso, come li chiama il libro? Altrimenti, non è strano?
ameba dice Ripristina Monica il

1
@amoeba non che io possa vedere a prima vista. Il libro è disponibile in pdf per uso personale. Come sostengo nella mia risposta e come notato nel libro, ci sono scelte migliori rispetto agli EC "empirici / di base" e "percentili" rispetto alla copertura, quindi posso capire perché si potrebbe essere omessi: senza pregiudizi e con IC simmetrica, non c'è molta differenza tra loro. Non posso certo criticare l'inventore del bootstrap per aver enfatizzato il suo metodo CI iniziale, poiché porta più direttamente a BC e BCa che a "empirico / base".
EdM,

5

Sto seguendo le tue linee guida: "Alla ricerca di una risposta attingendo da fonti credibili e / o ufficiali."

Il bootstrap è stato inventato da Brad Efron. Penso che sia giusto dire che è un illustre statistico. È un dato di fatto che è professore a Stanford. Penso che ciò renda le sue opinioni credibili e ufficiali.

Credo che l' inferenza statistica dell'era informatica di Efron e Hastie sia il suo ultimo libro e quindi dovrebbe riflettere le sue attuali opinioni. Da p. 204 (11.7, note e dettagli),

Gli intervalli di confidenza Bootstrap non sono né esatti né ottimali, ma mirano invece a un'ampia applicabilità combinata con una precisione quasi esatta.

Se leggi il capitolo 11, "Intervalli di confidenza Bootstrap", fornisce 4 metodi per creare intervalli di confidenza Bootstrap. Il secondo di questi metodi è (11.2) Il metodo percentuale. Il terzo e il quarto metodo sono varianti del metodo percentile che tentano di correggere ciò che Efron e Hastie descrivono come un pregiudizio nell'intervallo di confidenza e per il quale danno una spiegazione teorica.

A parte questo, non posso decidere se c'è qualche differenza tra ciò che le persone del MIT chiamano CI empirico bootstrap e CI percentile. Potrei avere una scoreggia cerebrale, ma vedo il metodo empirico come il metodo percentile dopo aver sottratto una quantità fissa. Ciò non dovrebbe cambiare nulla. Probabilmente sto leggendo male, ma sarei davvero grato se qualcuno potesse spiegare come sto capendo male il loro testo.

Indipendentemente da ciò, l'autorità principale non sembra avere problemi con gli elementi della configurazione percentile. Penso anche che il suo commento risponda alle critiche di CI bootstrap menzionate da alcune persone.

MAGGIORE AGGIUNTA

In primo luogo, dopo aver dedicato del tempo a digerire il capitolo MIT e i commenti, la cosa più importante da notare è che ciò che il MIT chiama bootstrap empirico e bootstrap percentile differiscono: il bootstrap empirico e il bootstrap percentile saranno diversi in ciò che chiamano empirico bootstrap sarà l'intervallo mentre il bootstrap percentile avrà l'intervallo di confidenza . Direi inoltre che secondo Efron-Hastie il bootstrap percentile è più canonico. La chiave di ciò che il MIT chiama bootstrap empirico è guardare alla distribuzione di . Ma perché , perché no[X*¯-δ.1,X*¯-δ.9][X*¯-δ.9,X*¯-δ.1]
δ=X¯-μX¯-μμ-X¯ . Altrettanto ragionevole. Inoltre, il delta per il secondo set è il bootstrap percentile contaminato! Efron usa il percentile e penso che la distribuzione dei mezzi effettivi dovrebbe essere fondamentale. Aggiungo che oltre a Efron e Hastie e al documento di Efron del 1979 menzionato in un'altra risposta, Efron scrisse un libro sul bootstrap nel 1982. In tutte e 3 le fonti ci sono menzioni del bootstrap percentile, ma non trovo alcuna menzione di ciò la gente del MIT chiama il bootstrap empirico. Inoltre, sono abbastanza sicuro che calcolano il bootstrap percentile in modo errato. Di seguito è riportato un quaderno R che ho scritto.

Commenti sul riferimento MIT Innanzitutto, portiamo i dati MIT in R. Ho fatto un semplice lavoro di copia e incolla dei loro campioni bootstrap e li ho salvati in boot.txt.

Nascondi orig.boot = c (30, 37, 36, 43, 42, 43, 43, 46, 41, 42) boot = read.table (file = "boot.txt") significa = as.numeric (lapply (boot , mean)) # lapply crea elenchi, non vettori. Lo uso SEMPRE per i frame di dati. mu = mean (orig.boot) del = sort (mean - mu) # le differenze mu significa del E inoltre

Nascondi mu - sort (del) [3] mu - sort (del) [18] Quindi otteniamo la stessa risposta. In particolare ho lo stesso decimo e 90 ° percentile. Voglio sottolineare che l'intervallo dal 10 ° al 90 ° percentile è 3. Questo è lo stesso del MIT.

Quali sono i miei mezzi?

Nascondere significa ordinare (significa) Sto ottenendo mezzi diversi. Punto importante: la mia decima e 90a media sono 38.9 e 41.9. Questo è quello che mi aspetterei. Sono diversi perché sto prendendo in considerazione le distanze da 40.3, quindi sto invertendo l'ordine di sottrazione. Si noti che 40.3-38.9 = 1.4 (e 40.3 - 1.6 = 38.7). Quindi quello che chiamano bootstrap percentile fornisce una distribuzione che dipende dai mezzi reali che otteniamo e non dalle differenze.

Punto chiave Il bootstrap empirico e il bootstrap percentile saranno diversi in quanto ciò che chiamano bootstrap empirico sarà l'intervallo [x ∗ ¯ − δ,, x ∗ ¯ − δ.9] [x ∗ ¯ − δ.1, x ∗ ¯ − δ.9] mentre il bootstrap percentile avrà l'intervallo di confidenza [x ∗ ¯ − δ.9, x ∗ ¯ − δ.1] [x ∗ ¯ − δ.9, x ∗ ¯ − δ.1 ]. In genere non dovrebbero essere così diversi. Ho i miei pensieri su quale preferirei, ma non sono la fonte definitiva richiesta da OP. Esperimento di pensiero: i due dovrebbero convergere se la dimensione del campione aumenta. Si noti che ci sono 210210 possibili campioni di dimensione 10. Non impazziamo, ma che ne dite se prendiamo 2000 campioni, una dimensione generalmente considerata sufficiente.

Nascondi set.seed (1234) # riproducibile boot.2k = matrice (NA, 10,2000) per (i in c (1: 2000)) {boot.2k [, i] = sample (orig.boot, 10, sostituisci = T)} mu2k = sort (applica (boot.2k, 2, mean)) Diamo un'occhiata a mu2k

Nascondi riepilogo (mu2k) media (mu2k) -mu2k [200] media (mu2k) - mu2k [1801] E i valori effettivi-

Nascondi mu2k [200] mu2k [1801] Quindi ora quello che il MIT chiama bootstrap empirico fornisce un intervallo di confidenza dell'80% di [, 40,3 -1,87,40,3 +1,64] o [38,43,41,94] e la loro distribuzione percentuale errata dà [38,5, 42]. Questo ovviamente ha senso perché la legge dei grandi numeri dirà in questo caso che la distribuzione dovrebbe convergere in una distribuzione normale. Per inciso, questo è discusso in Efron e Hastie. Il primo metodo che danno per calcolare l'intervallo di bootstrap è usare mu = / - 1.96 sd. Come sottolineano, per dimensioni del campione sufficientemente grandi questo funzionerà. Danno quindi un esempio per cui n = 2000 non è abbastanza grande da ottenere una distribuzione approssimativamente normale dei dati.

Conclusioni In primo luogo, desidero affermare il principio che utilizzo per decidere le questioni relative alla denominazione. "È la mia festa che posso piangere se voglio". Mentre originariamente enunciato da Petula Clark, penso che si applichi anche alle strutture di denominazione. Quindi, con sincera deferenza nei confronti del MIT, penso che Bradley Efron meriti di nominare i vari metodi di bootstrap come desidera. Cosa fa ? Non trovo alcuna menzione in Efron di "bootstrap empirico", solo percentile. Quindi sarò umilmente in disaccordo con Rice, MIT e altri. Vorrei anche sottolineare che, secondo la legge dei grandi numeri, come usato nella lezione del MIT, empirico e percentile dovrebbero convergere allo stesso numero. Per quanto mi riguarda, il bootstrap percentile è intuitivo, giustificato e ciò che l'inventore del bootstrap aveva in mente. Aggiungo che mi sono preso il tempo di farlo solo per la mia edificazione, non per altro. In particolare, Non ho scritto Efron, che probabilmente è ciò che OP dovrebbe fare. Sono più disposto a rimanere corretto.


3
"Penso che sia giusto dire che è un illustre statistico." - Sì, direi che è giusto!
Xavier Bourret Sicotte,

Penso che ciò che OP chiama "boostrap empirico" sia ciò che Wikipedia chiama "bootstrap di base" qui en.wikipedia.org/wiki/… . Utilizza gli stessi percentili del "bootstrap percentile", hai ragione, ma in qualche modo li capovolgi. Efron e Hastie includono questo nei loro 4 metodi? Come lo chiamano?
ameba dice Reinstate Monica il

Ho cercato di chiarire questo nella domanda in base a ciò che ho letto nelle note del MIT. Fammi sapere se qualcosa non è chiaro (o se hai tempo di controllare le note stesse, controlla la correttezza del mio post).
Clarinetist,

@Xavier si potrebbe sostenere che la mia affermazione su Efron fosse eufemica.
aginensky,

1
La tua affermazione che "quello che chiamano bootstrap empirico sarà l'intervallo ," dove è la media delle stime bootstrap, non è corretta in termini di pagina MIT collegata dall'OP. Il bootstrap empirico / di base esamina la distribuzione delle differenze delle stime bootstrap dalla stima del campione originale , non la distribuzione delle stime bootstrap stesse. Questo porta a gravi differenze nell'IC se ci sono pregiudizi, come spiega la mia risposta. Vedi questa pagina per un esempio. [X*¯-δ.1,X*¯-δ.9]X*¯
EdM,

2

Come già notato nelle risposte precedenti, il "bootstrap empirico" è chiamato "bootstrap di base" in altre fonti (inclusa la funzione R boot.ci ), che è identico al "bootstrap percentile" lanciato alla stima puntuale. Venables e Ripley scrivono ("Modern Applied Statstics with S", 4th ed., Springer, 2002, p. 136):

Nei problemi asimmetrici, gli intervalli di base e percentuali differiranno considerevolmente e gli intervalli di base sembrano più razionali.

Per curiosità, ho fatto estese simulazioni MonteCarlo con due stimatori distribuiti asimmetricamente e ho scoperto, con mia sorpresa, esattamente l'opposto, ovvero che l'intervallo percentile ha sovraperformato l'intervallo di base in termini di probabilità di copertura. Ecco i miei risultati con la probabilità di copertura per ogni dimensione del campione stimata con un milione di campioni diversi (presi da questo rapporto tecnico , p. 26f):n

f(X)=3X2 Probabilità di copertura di diversi intervalli di bootstrap per la media di una distribuzione asimmetrica±t1-α/2S2/n)±z1-α/2S2/n)

2) Stima della massima verosimiglianza per nella distribuzione esponenziale In questo caso, vengono forniti due intervalli di confidenza alternativi per il confronto: volte l'inverso della probabilità logaritmica inversa e volte lo stimatore della varianza di Jackknife.λ± z 1 - α / 2 ± z 1 - α / 2Probabilità di copertura per diversi intervalli di bootstrap per uno stimatore ML±z1-α/2±z1-α/2

In entrambi i casi d'uso, il bootstrap BCa ha la più alta probabilità di copertura tra i metodi bootstrap e il bootstrap percentile ha una maggiore probabilità di copertura rispetto al bootstrap di base / empirico.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.