Perché in media ogni campione bootstrap contiene circa due terzi delle osservazioni?


42

Ho eseguito attraverso l'affermazione che ogni campione bootstrap (o albero insaccato) conterranno in media di circa 2/3 delle osservazioni.

Capisco che la possibilità di non essere scelto in una qualsiasi delle n trae dal n campioni con sostituzione è (11/n)n , che funziona a circa 1/3 possibilità di non essere selezionato.

Che cosa è una spiegazione matematica per cui questa formula dà sempre 1/3 ?


10
Credo che questa sia l'origine del .632 nella regola bootstrap 632+.
gung - Ripristina Monica

Risposte:


29

limn(11/n)n=e1
e1=1/e1/3

Non funziona con n molto piccolo n, ad es. n=2 , (11/n)n=14 . Passa 13 a n=6 , passa 0.35 a n=11 e 0.366 di n=99 . Una volta che vai oltre n=11 , 1e è un'approssimazione migliore di 13 .

inserisci qui la descrizione dell'immagine

La linea tratteggiata grigia è in 13 ; la linea rossa e grigia è in 1e .

Piuttosto che mostrare una derivazione formale (che può essere facilmente trovata), fornirò uno schema (che è un argomento intuitivo e manuale) del perché un risultato (leggermente) più generale contiene:

ex=limn(1+x/n)n

(Molte persone ritengono che questa sia la definizione di , ma puoi provarlo da risultati più semplici come la definizione di come .)exp(x)elimn(1+1/n)n

Fatto 1: Segue i risultati di base sui poteri e sull'esponenziazioneexp(x/n)n=exp(x)

Fatto 2: quando è grande, Segue l'espansione della serie per .nexp(x/n)1+x/nex

(Posso dare argomenti più completi per ciascuno di questi ma presumo che tu li conosca già)

Sostituire (2) in (1). Fatto. (Perché questo funzioni come un argomento più formale richiederebbe un po 'di lavoro, perché dovresti dimostrare che i termini rimanenti nel Fatto 2 non diventano abbastanza grandi da causare un problema se portati al potere . Ma questa è intuizione piuttosto che una prova formale.)n

[In alternativa, prendi la serie Taylor per al primo ordine. Un secondo approccio semplice è prendere l'espansione binomiale di e prendere il limite termine per termine, mostrando che fornisce i termini della serie per .]exp(x/n)(1+x/n)nexp(x/n)

Quindi se , basta sostituire .ex=limn(1+x/n)nx=1

Immediatamente, abbiamo il risultato in cima a questa risposta,limn(11/n)n=e1


Come sottolinea gung nei commenti, il risultato nella tua domanda è l'origine della regola bootstrap 632

es. vedi

Efron, B. e R. Tibshirani (1997),
"Miglioramenti alla convalida incrociata: il metodo .632+ Bootstrap",
Journal of American Statistical Association Vol. 92, n. 438. (giu), pagg. 548-560


41

Più precisamente, ogni campione bootstrap (o albero in sacchi) conterrà del campione.11e0.632

Vediamo come funziona il bootstrap. Abbiamo un campione originale con elementi in esso. Disegniamo articoli con sostituzione da questo set originale fino a quando non avremo un altro set di dimensioni .x1,x2,xnnn

Da ciò, ne consegue che la probabilità di scegliere uno qualsiasi degli elementi (diciamo, ) al primo sorteggio è . Pertanto, la probabilità di non scegliere quell'elemento è . Questo è solo per il primo sorteggio; ci sono un totale di sorteggi, tutti indipendenti, quindi la probabilità di non scegliere mai questo oggetto in nessuno dei sorteggi è .x11n11nn(11n)n

Ora, pensiamo a cosa succede quando diventa sempre più grande. Possiamo prendere il limite mentre va verso l'infinito, usando i soliti trucchi di calcolo (o Wolfram Alpha): nn

limn(11n)n=1e0.368

Questa è la probabilità che un oggetto non venga scelto. Sottrai da uno per trovare la probabilità dell'articolo scelto, che ti dà 0,632.


5

Il campionamento con sostituzione può essere modellato come una sequenza di prove binomiali in cui "successo" è un'istanza selezionata. Per un set di dati originale di istanze, la probabilità di "successo" è e la probabilità di "fallimento" è . Per una dimensione del campione di , la probabilità di selezionare un'istanza esattamente volte è data dalla distribuzione binomiale:n1/n(n1)/nbx

P(x,b,n)=(1n)x(n1n)bx(bx)

Nel caso specifico di un campione bootstrap, la dimensione del campione uguale al numero di istanze . Lasciando approccio all'infinito, si ottiene:bnn

limn(1n)x(n1n)nx(nx)=1ex!

Se il nostro set di dati originale è grande, possiamo usare questa formula per calcolare la probabilità che un'istanza sia selezionata esattamente volte in un campione bootstrap. Per , la probabilità è o circa . La probabilità che un'istanza venga campionata almeno una volta è quindi .xx=01/e0.36810.368=0.632

Inutile dire che ne ho scrupolosamente derivato usando carta e penna e non ho nemmeno preso in considerazione l'uso di Wolfram Alpha.


4

Basta aggiungere alla risposta di @ retsreg questo può anche essere dimostrato abbastanza facilmente tramite la simulazione numerica in R:

N <- 1e7 # number of instances and sample size
bootstrap <- sample(c(1:N), N, replace = TRUE)
round((length(unique(bootstrap))) / N, 3)
## [1] 0.632

1

Questo può essere facilmente visto contando. Quanti campioni possibili totali? n ^ n. Quanti NON contengono un valore specifico? (N-1) ^ n. Probabilità di un campione che non ha un valore specifico - (1-1 / n) ^ n, che è di circa 1/3 del limite.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.