Dimensione dei campioni bootstrap


9

Sto imparando il bootstrap come mezzo per stimare la varianza di una statistica campione. Ho un dubbio di base.

Citando da http://web.stanford.edu/class/psych252/tutorials/doBootstrapPrimer.pdf :

• Quante osservazioni dovremmo ricampionare? Un buon suggerimento è la dimensione del campione originale.

Come possiamo ricampionare tante osservazioni quante nel campione originale?
Se ho una dimensione del campione di 100 e sto cercando di stimare la varianza della media. Come posso ottenere più campioni bootstrap della dimensione 100 da una dimensione totale del campione di 100? In questo caso sarebbe possibile solo 1 campione bootstrap che sarebbe equivalente al campione originale giusto?

Ovviamente sto fraintendendo qualcosa di molto semplice. Comprendo che il numero di campioni bootstrap ideali è sempre infinito e per determinare il numero di campioni bootstrap necessari per i miei dati dovrei testare la convergenza tenendo presente la precisione richiesta.
Ma sono davvero confuso su quale dovrebbe essere la dimensione di ogni singolo campione bootstrap.


7
La parte superiore di p. 3, e le illustrazioni lì, stabiliscono chiaramente e in modo evidente che il ricampionamento è con la sostituzione.
whuber

Ma se la dimensione del mio campione bootstrap è uguale al numero totale di osservazioni che ho, con cosa sostituisco?
user1265125

Esempio semplificato - quindi se ho 4,1,3,7,5 come set di campioni. Come posso creare più campioni bootstrap di dimensione 5? L'unico campione bootstrap di dimensione 5 sarà 4,1,3,7,5, ovvero il set di campioni originale.
user1265125

1
Oh aspetta, ho capito - "• Per simulare una distribuzione campionaria, possiamo semplicemente prelevare campioni casuali ripetuti da questa" popolazione "composta da molte copie del campione"
user1265125

Risposte:


16

Bootstrap viene condotto campionando con la sostituzione . Sembra che il termine "con sostituzione" non sia chiaro per te. Come notato da whuber , l'illustrazione del campionamento con la sostituzione è data a p. 3 della carta a cui ti riferisci (riprodotta di seguito).

Illustrazione del campionamento con sostituzione

(fonte: http://web.stanford.edu/class/psych252/tutorials/doBootstrapPrimer.pdf )

L'idea generale di campionare con la sostituzione è che ogni caso può essere campionato più volte (marmo verde nella prima immagine sopra; marmi blu e viola nell'ultima immagine). Se vuoi immaginarti questo processo, pensa a una ciotola piena di marmi colorati. Dì che vuoi disegnare un certo numero di biglie da questa ciotola. Se hai campionato senza rimpiazzare, toglieresti semplicemente i marmi dalla ciotola e metterai da parte quelli campionati. Se hai campionato con la sostituzione, allora campioneresti i marmi uno per uno, estraendo il singolo marmo dalla ciotola, annunciando il colore sul tuo taccuino e poi restituendolo indietroalla ciotola. Quindi, quando si campiona con la sostituzione, lo stesso marmo può essere campionato più volte.

nnnnnnn

(nK)Kn(n+K-1K)


0

Quante osservazioni dovremmo ripetere il campionamento? Un buon suggerimento è la dimensione del campione originale.

Quando la dimensione del campione originale è troppo grande e non si desidera / non è possibile addestrare un modello sull'insieme di dati completo, il "buon suggerimento" non è così buono.

PS: volevo aggiungere questo come commento alla domanda ma non mi è permesso aggiungere alcun commento ...


1
Perché vuoi aggiungere questo suggerimento? Se questo è dovuto a set di dati troppo grandi per regolari sforzi computazionali, questo è un problema pratico rilevante, ma non si applica alla teoria del bootstrap che è stata messa in discussione qui. Inoltre, si trattava di "stimare la varianza di una statistica campione". È davvero legato alla formazione generale di un modello? (NB. Non essere scortese, capisco che non puoi ancora pubblicare commenti, ma ciò non ti esonera dal fornire una risposta pertinente quando pubblichi come tale. Devi essere molto più chiaro, O pubblicare la tua domanda)
IWS
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.