Quando è valida la stima bootstrap del bias?


31

Si afferma spesso che il bootstrap può fornire una stima della distorsione in uno stimatore.

Se t è la stima per qualche statistica, e ~ t i sono le repliche bootstrap (con i { 1 , , N } ), allora la stima bootstrap di polarizzazione è che sembra estremamente semplice e potente, al punto da essere inquietante.t^t~ii{1,,N}

biast1Nit~it^

Non riesco a capire come sia possibile senza avere uno stimatore imparziale della statistica. Ad esempio, se il mio stimatore restituisce semplicemente una costante indipendente dalle osservazioni, la precedente stima della distorsione non è chiaramente valida.

Sebbene questo esempio sia patologico, non riesco a vedere quali sono i presupposti ragionevoli dello stimatore e delle distribuzioni che garantiranno che la stima bootstrap sia ragionevole.

Ho provato a leggere i riferimenti formali, ma non sono uno statistico né un matematico, quindi nulla è stato chiarito.

Qualcuno può fornire un riepilogo di alto livello di quando ci si aspetta che la stima sia valida? Se si conoscono buoni riferimenti sull'argomento, sarebbe fantastico.


Modificare:

La fluidità dello stimatore viene spesso citata come requisito per il funzionamento del bootstrap. Potrebbe essere che si richieda anche una sorta di invertibilità locale della trasformazione? La mappa costante chiaramente non lo soddisfa.


2
Uno stimatore costante è uno stimatore imparziale di quella costante, quindi è naturale che lo stimatore bootstrap del bias sia zero.
Xi'an,

Risposte:


4

Il problema che descrivi è un problema di interpretazione, non di validità. La stima della distorsione da bootstrap per il tuo stimatore costante non è valida, in realtà è perfetta.

La stima bootstrap di polarizzazione è compresa tra un estimatore θ = s ( x ) e un parametro θ = t ( F ) , dove F è qualche distribuzione sconosciuto e x un campione da F . La funzione t ( F ) è qualcosa che in linea di principio potresti calcolare se avessi la popolazione a portata di mano. Alcune volte ci prendono s ( x ) = t ( F ) , il plug-in stima della t (θ^=s(x)θ=t(F),FxFt(F)s(x)=t(F^), utilizzando la distribuzione empirica F al posto di F . Questo è presumibilmente ciò che descrivi sopra. In tutti i casi la stima bootstrap di polarizzazione è b i un s F = E F [ s ( x * ) ] - t ( F ) , dove x * sono campioni bootstrap da x .t(F)F^F

biasF^=EF^[s(x)]t(F^),
xx

La costante è un perfetto plug-in preventivo per la stessa costante:c La popolazione è e il campione ~ F , la distribuzione empirica, che si avvicina F . Se potessi valutare t ( F ) = c , otterrai c . Quando si calcola il plug-in preventivo t ( F ) = c si ottiene anche c . Nessun pregiudizio, come ti aspetteresti.FF^Ft(F)=cct(F^)=cc

Un noto caso in cui v'è una distorsione nel plug-in stima è in varianza stima, quindi la correzione di Bessel. Di seguito lo dimostrerò. La stima del bias del bootstrap non è poi così male: t(F^)

library(plyr)

n <- 20
data <- rnorm(n, 0, 1)

variance <- sum((data - mean(data))^2)/n

boots <- raply(1000, {
  data_b <- sample(data, n, replace=T)
  sum((data_b - mean(data_b))^2)/n
})

# estimated bias
mean(boots) - variance 
#> [1] -0.06504726

# true bias:
((n-1)/n)*1 -1
#> [1] -0.05

Potremmo invece prendere come media della popolazione e s ( x ) = c , situazione in cui nella maggior parte dei casi dovrebbe esserci un chiaro pregiudizio: t(F)s(x)=c

library(plyr)

mu <- 3
a_constant <- 1

n <- 20
data <- rnorm(n, mu, 1)

boots <- raply(1000, {
  # not necessary as we will ignore the data, but let's do it on principle
  data_b <- sample(data, n, replace=T)

  a_constant
})

# estimated bias
mean(boots) - mean(data) 
#> [1] -1.964877

# true bias is clearly -2

Ancora una volta la stima del bootstrap non è poi così male.


Ho aggiunto questa risposta perché le altre risposte sembrano dare per scontato che è un problema che la stima bootstrap del bias sia 0 quando è una costante. Non ci credo. t
einar,

Mi piace la tua risposta e la tua demo, ma non credo che la tua definizione sia corretta "La stima bootstrap del bias è una stima del bias tra una funzione del tuo campione e la stessa funzione valutata nella popolazione." Mentre ciò che scrivi è ben definito, se questa fosse la definizione, non ci sarebbe modo di usare il bootstrap per stimare la distorsione, ad esempio, della varianza del campione come stimatore della varianza della popolazione.
David R

@DavidR Hai ragione, grazie per aver commentato. Ho aggiornato la risposta.
einar

Mi piace molto questo commento! La mia unica domanda riguarda "stima bootstrap del bias". Penso che ciò che hai scritto sia l'effettivo pregiudizio dello stimatore (ma per la distribuzione empirica piuttosto che per la vera distribuzione), dal momento che ti stai aspettando di avere dei campioni bootstrap. Penso che lo stimatore bootstrap sarebbe una somma finita su campioni B bootstrap?
David R

1
@DavidR Sono contento che tu lo faccia! Quello che riporto è tecnicamente la stima bootstrap di bias (perché si usa al posto di θ e l'aspettativa di bootstrap s ( ) in luogo della sua aspettativa su F ). Ma nella maggior parte delle applicazioni pratiche E F [ s ( x * ) ] è intrattabile e approssimativo che da Monte Carlo come dici tu. t(F^)θs()FEF^[s(x)]
einar

3

Fai un errore e forse questa è la ragione per cui ti confondi. Tu dici:

se il mio stimatore restituisce semplicemente una costante indipendente dalle osservazioni, la precedente stima della distorsione non è chiaramente valida

Bootstrap non riguarda quanto il tuo metodo sia distorto, ma quanto i risultati ottenuti da alcune funzioni, dato che i tuoi dati sono distorti.

Se scegli il metodo statistico appropriato per analizzare i tuoi dati e tutti i presupposti di questo metodo sono soddisfatti e hai fatto correttamente la tua matematica, il tuo metodo statistico dovrebbe fornirti la "migliore" stima possibile che puoi ottenere usando i tuoi dati .

L'idea di bootstrap è di campionare i tuoi dati nello stesso modo in cui hai campionato i tuoi casi dalla popolazione, quindi è una specie di replica del tuo campionamento. Ciò ti consente di ottenere una distribuzione approssimativa (usando le parole Efrons) del tuo valore e quindi di valutare la distorsione della tua stima.

Tuttavia, ciò che sostengo è che il tuo esempio è fuorviante e quindi non è l'esempio migliore per discutere bootstrap. Dato che ci sono stati malintesi su entrambi i lati, vorrei aggiornare la mia risposta e scriverla in modo più formale per illustrare il mio punto.

Polarizzazione per θ essere stima del valore vero θ è definito come:θ^θ

bias(θ^n)=Eθ(θ^n)θ

dove:

θ^n=g(x1,x2,...,xn)

dove è lo stimatore.g()

Come osserva Larry Wasserman nel suo libro "All the Statistics" :

Un requisito ragionevole per uno stimatore è che dovrebbe convergere al vero valore del parametro man mano che raccogliamo sempre più dati. Questo requisito è quantificato dalla seguente definizione:
6.7 Definizione. Un punto stimatore θ n di un parametro θ è coerente se θ n P θ .θ^nθθ^nPθ

Stimatore costante, essendo una funzione costante di : g ( X ) = λ non non soddisfare questo requisito essendo indipendente dei dati e crescente numero di osservazioni non renderebbe avvicinarsi al valore vero θ (se non per pura fortuna o avere molto solida ipotesi a priori su λ è che λ = θ ).xg(X)=λθλλ=θ

Stimatore costante non soddisfa il requisito fondamentale per essere uno stimatore ragionevole e, quindi, è possibile stimare che di polarizzazione perché θ n non si avvicina θ anche con n . È impossibile farlo con bootstrap e con qualsiasi altro metodo, quindi non è un problema con bootstrap.θ^nθn


5
Temo che questa risposta sembri destinata a seminare confusione. Uno stimatore costante è uno stimatore secondo la maggior parte delle definizioni - e in alcuni casi è persino ammissibile. La tua domanda confonde il bias di campionamento con il bias di stima, che è destinato a confondere quasi tutti i lettori. Il tuo paragrafo sulla "migliore stima possibile" è carino ma pone la domanda essenziale su come misurare "meglio". La distorsione è solo una componente (se non del tutto).
whuber

Anche se non sono abbastanza qualificato per rispondere a OP, temo che Whuber abbia ragione. Inoltre, è valido chiamare la popolazione significa uno stimatore? Relativamente all'ultima frase, penso che boostrap fornisca una stima del bias dello stimatore in analisi e non del metodo di campionamento.
Mugen,

Comprendo che il bootstrap non è in grado di rilevare errori sistematici, ma almeno in alcuni limiti si suppone che rilevi errori di statistica. Suppongo che il tuo punto riguardi la delicatezza nel distinguere tra i due, ma per me non è ancora chiaro. Sembra che tu stia parlando di una nozione di pregiudizio di cui non ho mai sentito parlare, non dello stimatore, ma dei dati. Qual è la definizione formale di questa nozione di parzialità?
Bootstrapped

3
λθ λθ

8
θ^0n<10100

3

t

biast1Nit~it

Si desidera utilizzare la statistica effettiva valutata sulla distribuzione empirica (questo è spesso facile, poiché il campione originale è un insieme finito), piuttosto che la stima. In alcuni casi, questi possono essere gli stessi (ad esempio, la media empirica è la stessa della media del campione), ma non saranno in generale. Hai fornito un caso in cui sono diversi, ma un esempio meno patologico è il solito stimatore imparziale per la varianza, che non è lo stesso della varianza della popolazione quando applicato a una distribuzione finita.

t

TL / DR: il metodo bootstrap non è magico. Per ottenere una stima imparziale della distorsione, è necessario essere in grado di calcolare il parametro di interesse esattamente su una distribuzione finita.


1
Non sono sicuro del significato della tua notazione. Secondo questi appunti di Pete Hall (UC Davis), questi appunti di Cosma Shalizi (CMU) e questa pagina del libro di Efron e Tibshirani sembrano indicare che ciò che ho non è sbagliato, ma non del tutto generale (cioè sto usando lo stimatore plug-in qui, ma non è necessario).
Bootstrapped

t=t^θ(F1)tθ^t^tt
Evan Wright il

t=t^

1
tN

ttt~it

0

Trovo utile pensare alle procedure bootstrap in termini di funzionali delle distribuzioni su cui operano - ho fornito un esempio in questa risposta a una diversa domanda bootstrap.

La stima che hai dato è quella che è: una stima. Nessuno dice che non soffra di problemi che potrebbero avere stime statistiche. Ti fornirà una stima diversa da zero della distorsione per la media del campione, per esempio, che sappiamo tutti che è imparziale all'inizio. Un problema con questo stimatore di pregiudizio è che soffre della variabilità del campionamento quando il bootstrap è implementato come Monte Carlo piuttosto che un elenco completo di tutti i possibili sottocampioni (e nessuno che quel bootstrap teorico in pratica, comunque).

BB


7
Penso che la domanda originale di Bootstrapped sia ortogonale alla questione della variabilità di Monte Carlo. Anche se portiamo il numero di repliche bootstrap su infinito, la formula nella domanda fornirà una stima zero per il bias di uno stimatore costante e fornirà una stima diversa da zero per il bias della normale stima imparziale della varianza.
Evan Wright,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.