So che questo è un argomento piuttosto caldo in cui nessuno può davvero dare una risposta semplice. Tuttavia mi chiedo se il seguente approccio non possa essere utile.
Il metodo bootstrap è utile solo se il tuo campione segue più o meno (leggi esattamente) la stessa distribuzione della popolazione originale. Per essere certi, questo è il caso in cui è necessario rendere la dimensione del campione abbastanza grande. Ma cos'è abbastanza grande?
Se la mia premessa è corretta, hai lo stesso problema quando usi il teorema del limite centrale per determinare la media della popolazione. Solo quando la dimensione del tuo campione è abbastanza grande puoi essere certo che la popolazione del tuo campione sia normalmente distribuita (intorno alla media della popolazione). In altre parole, i tuoi campioni devono rappresentare abbastanza bene la tua popolazione (distribuzione). Ma ancora, cosa è abbastanza grande?
Nel mio caso (processi amministrativi: tempo necessario per terminare una domanda rispetto a una quantità di richieste) ho una popolazione con una distribuzione multimodale (tutte le richieste terminate nel 2011) di cui sono sicuro al 99% che è ancora meno normalmente distribuito rispetto alla popolazione (tutte le richieste che sono finite tra oggi e un giorno nel passato, idealmente questo periodo di tempo è il più piccolo possibile) che voglio ricercare.
La mia popolazione del 2011 esiste di unità sufficienti per fare campioni di una dimensione del campione n . Scelgo un valore di x , supponiamo 10 ( x = 10 ). Ora uso tentativi ed errori per determinare una buona dimensione del campione. Prendo un n = 50 e vedo se la mia popolazione media campione è normalmente distribuita usando Kolmogorov-Smirnov. In tal caso, ripeto gli stessi passaggi ma con una dimensione del campione di 40 , in caso contrario ripeto con una dimensione del campione di 60 (ecc.).
Dopo un po 'concludo che è la dimensione minima del campione assoluto per ottenere una rappresentazione più o meno buona della mia popolazione del 2011. Dal momento che so che la mia popolazione di interesse (tutte le richieste che sono terminate tra oggi e un giorno nel passato) ha una varianza minore, posso tranquillamente usare una dimensione del campione di n = 45 per l'avvio. (Indirettamente, n = 45 determina la dimensione del mio periodo di tempo: tempo necessario per completare 45 richieste.)
Questa è, in breve, la mia idea. Ma dal momento che non sono uno statistico ma un ingegnere le cui lezioni di statistica si sono svolte nei giorni passati, non posso escludere la possibilità di aver generato un sacco di immondizia :-). Che cosa ne pensate? Se la mia premessa ha senso, devo scegliere una maggiore di 10 o inferiore? A seconda delle tue risposte (devo sentirmi imbarazzato o no? :-) Pubblicherò altre idee per la discussione.
risposta alla prima risposta Grazie per la risposta, la tua risposta mi è stata molto utile, in particolare i link ai libri.
Ma temo che nel mio tentativo di fornire informazioni ho completamente oscurato la mia domanda. So che i campioni bootstrap si occupano della distribuzione del campione di popolazione. Ti seguo completamente ma ...
Il campione di popolazione originale deve essere abbastanza grande da essere moderatamente certo che la distribuzione del campione di popolazione corrisponda (uguale) alla distribuzione "reale" della popolazione.
Questa è semplicemente un'idea su come determinare quanto deve essere grande la dimensione del campione originale per essere ragionevolmente certi che la distribuzione del campione corrisponda alla distribuzione della popolazione.
Supponiamo di avere una distribuzione della popolazione bimodale e che una cima sia molto più grande dell'altra. Se la dimensione del campione è 5, la possibilità è che tutte e 5 le unità abbiano un valore molto vicino alla cima più grande (possibilità di disegnare casualmente un'unità che è la più grande). In questo caso la tua distribuzione del campione apparirà monomodale.
Con una dimensione del campione di cento, la possibilità che anche la distribuzione del campione sia bimodale è molto più grande !! Il problema con il bootstrap è che hai solo un esempio (e costruisci ulteriormente su quell'esempio). Se la distribuzione del campione in realtà non corrisponde alla distribuzione della popolazione, si è in difficoltà. Questa è solo un'idea per rendere la possibilità di avere una "cattiva distribuzione del campione" il più basso possibile senza dover aumentare la dimensione del campione all'infinito.