Media del campione bootstrap vs statistica del campione


18

Supponiamo che io abbia un campione e il campione bootstrap di questo esempio per un stastitico (ad es. La media). Come tutti sappiamo, questo esempio di bootstrap stima la distribuzione campionaria dello stimatore della statistica.χ

Ora, la media di questo campione bootstrap è una stima migliore della statistica della popolazione rispetto alla statistica del campione originale ? In quali condizioni sarebbe il caso?


2
La media del campione bootstrap è la media del campione e in questo caso non è necessario un campione bootstrap.
Xi'an,

1
Grazie @ Xi'an non sono sicuro di seguire. La media del campione bootstrap può essere numericamente diversa dalla media del campione. Stai cercando di dire che i due sono ancora teoricamente equivalenti? Puoi confermare ad entrambe le estremità?
Amelio Vazquez-Reina,

2
Cerchiamo di chiarire la nostra terminologia: "campione bootstrap" potrebbe riferirsi a un campione specifico con sostituzione dei dati oppure potrebbe riferirsi a una variabile casuale (multivariata) di cui un campione del genere sarebbe considerato una realizzazione. Hai ragione sul fatto che la media di una realizzazione può differire dalla media dei dati, ma @ Xi'an fornisce l'osservazione più rilevante che la media della variabile casuale (che per definizione è la stima bootstrap della media della popolazione ) deve coincidere con la media dei dati.
whuber

1
Quindi la tua domanda è quasi identica a stats.stackexchange.com/questions/126633/… ; l'unica differenza è che le realizzazioni di esempio bootstrap possono sovrapporsi, ma l'analisi fornita nella risposta viene facilmente trasferita alla situazione bootstrap, con lo stesso risultato.
whuber

1
Vedo la connessione @whuber, sebbene in bootstrap ci siano "sottoinsiemi con sostituzione" e le realizzazioni potrebbero sovrapporsi, come hai detto. Immagino che la distribuzione (es. Pseudorandomness) usata per ottenere i ri-campioni nel bootstrap possa anche influenzare la distorsione della stima dal campione bootstrap. Forse la risposta è che per tutte le questioni pratiche la differenza è trascurabile. Questa è la domanda: condizioni, sottigliezze e differenze pratiche.
Amelio Vazquez-Reina,

Risposte:


19

Generalizziamo, in modo da concentrarci sul nocciolo della questione. Spiegherò i dettagli più piccoli in modo da non lasciare dubbi. L'analisi richiede solo quanto segue:

  1. La media aritmetica di un insieme di numeri è definita comez1,,zm

    1m(z1++zm).
  2. L'aspettativa è un operatore lineare. Cioè, quando sono variabili casuali e α i sono numeri, quindi l'aspettativa di una combinazione lineare è la combinazione lineare delle aspettative,Zi,i=1,,mαi

    E(α1Z1++αmZm)=α1E(Z1)++αmE(Zm).

Sia un campione ( B 1 , , B k ) ottenuto da un set di dati x = ( x 1 , , x n ) prendendo k elementi uniformemente da x con la sostituzione. Let m ( B ) sia la media aritmetica dei B . Questa è una variabile casuale. PoiB(B1,,Bk)x=(x1,,xn)kxm(B)B

E(m(B))=E(1k(B1++Bk))=1k(E(B1)++E(Bk))

segue la linearità delle aspettative. Poiché gli elementi di sono tutti ottenuti nello stesso modo, hanno tutti la stessa aspettativa, b dicono:Bb

E(B1)==E(Bk)=b.

Questo semplifica quanto sopra

E(m(B))=1k(b+b++b)=1k(kb)=b.

Per definizione, l'aspettativa è la somma dei valori ponderata in base alla probabilità. Poiché si presume che ciascun valore di abbia una pari probabilità di 1 / n di essere selezionato,X1/n

E(m(B))=b=E(B1)=1nx1++1nxn=1n(x1++xn)=x¯,

la media aritmetica dei dati.

Per rispondere alla domanda, se si usa la media dei dati per stimare la media della popolazione, allora anche la media bootstrap (che è il caso k = n ) è uguale a ˉ x , e quindi è identica a una stima della media della popolazione.x¯k=nx¯


Per le statistiche che non sono funzioni lineari dei dati, lo stesso risultato non è necessariamente valido. Tuttavia, sarebbe sbagliato semplicemente sostituire la media bootstrap al valore della statistica sui dati: non è così che funziona il bootstrap. Invece, confrontando la media bootstrap con la statistica dei dati otteniamo informazioni sulla distorsione della statistica. Questo può essere usato per regolare la statistica originale per rimuovere la distorsione. Pertanto, la stima corretta in base al bias diventa quindi una combinazione algebrica della statistica originale e della media bootstrap. Per ulteriori informazioni, cercare "BCa" (bootstrap accelerato e accelerato) e "ABC". Wikipedia fornisce alcuni riferimenti.


Vuoi dire che l'aspettativa della media bootstrap è uguale alla media dei dati, no? La media bootstrap non è determinata dal campione di dati (originale).
capybaralet,

@ user2429920 La media bootstrap è una statistica determinata dal campione. In questo senso è identico alla media del campione. La sua aspettativa è presa nel senso della distribuzione campionaria. Ho il sospetto che potresti usare "aspettativa" in un senso diverso rispetto al processo di calcolo della media bootstrap tramite ripetuti campionamenti con sostituzione.
whuber

1
Penso che l'ultimo paragrafo sia la risposta effettiva a questa domanda in quanto è generale e non si concentra solo sulla statistica media. Avevo lo stesso dubbio dell'OP, e non ero a conoscenza dell'esistenza di BCa. Sebbene la dimostrazione in questa risposta non mi abbia aiutato molto (non sto usando la media come mia statistica), l'ultimo paragrafo è stato molto chiaro sul nocciolo della questione. Credo che la risposta di Xi'an affronti anche il caso in cui viene utilizzata la statistica media, quindi lo stesso problema. Grazie!
Gabriel,

1
@Gabriel buoni punti. Ho controllato il record: prima della modifica, questa domanda originariamente poneva solo la media. Ecco perché le risposte sembrano essere così focalizzate su quella statistica.
whuber

9

Poiché la distribuzione bootstrap è definita come F n ( x ) = 1

F^n(X)=1nΣio=1nioXioXXio~iidF(X),
EF^n[X]=1nΣio=1nXio=X¯n
EF^n[X]X¯n

2
+1 Questa è la risposta che inizialmente volevo scrivere, ma temevo potesse essere troppo opaca per alcuni lettori. Sono comunque felice di vederlo presentato in modo così elegante. Non sono sicuro di cosa intendi nella tua ultima frase, tuttavia, dove sembri differenziare la "aspettativa" dell'approssimazione simulata dalla media dal suo "limite": poiché l'aspettativa è costante (non varia con la dimensione della simulazione ), non c'è davvero alcun limite da prendere.
whuber

@whuber: Grazie per il commento e scusa per aver scritto la mia risposta concisa esattamente nello stesso momento della tua! Le tue spiegazioni sono sicuramente più leggibili dai novizi in bootstrap. Ho corretto l'ultima frase, la cui parte limitante è la legge dei grandi numeri.
Xi'an,

3
Il tuo uso di "mean" in quest'ultima frase è abbastanza ambiguo! L'ho capito dal tuo indizio LLN. Per qualsiasi simulazione finita della distribuzione bootstrap, ogni campione nella simulazione produce la propria media (c'è un significato di "media"). La media di tutti quei campioni in una data simulazione produce una media di simulazione (c'è un altro significato). La media della simulazione converge in una costante man mano che le dimensioni della simulazione aumentano, che è la media bootstrap (un terzo significato) e questo equivale alla media del campione (il quarto significato). (E questo stima che la popolazione significhi - un quinto significato!)
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.