Determinazione della dimensione del campione necessaria per il metodo bootstrap / Metodo proposto

33

So che questo è un argomento piuttosto caldo in cui nessuno può davvero dare una risposta semplice. Tuttavia mi chiedo se il seguente approccio non possa essere utile.

Il metodo bootstrap è utile solo se il tuo campione segue più o meno (leggi esattamente) la stessa distribuzione della popolazione originale. Per essere certi, questo è il caso in cui è necessario rendere la dimensione del campione abbastanza grande. Ma cos'è abbastanza grande?

Se la mia premessa è corretta, hai lo stesso problema quando usi il teorema del limite centrale per determinare la media della popolazione. Solo quando la dimensione del tuo campione è abbastanza grande puoi essere certo che la popolazione del tuo campione sia normalmente distribuita (intorno alla media della popolazione). In altre parole, i tuoi campioni devono rappresentare abbastanza bene la tua popolazione (distribuzione). Ma ancora, cosa è abbastanza grande?

Nel mio caso (processi amministrativi: tempo necessario per terminare una domanda rispetto a una quantità di richieste) ho una popolazione con una distribuzione multimodale (tutte le richieste terminate nel 2011) di cui sono sicuro al 99% che è ancora meno normalmente distribuito rispetto alla popolazione (tutte le richieste che sono finite tra oggi e un giorno nel passato, idealmente questo periodo di tempo è il più piccolo possibile) che voglio ricercare.

La mia popolazione del 2011 esiste di unità sufficienti per fare campioni di una dimensione del campione . Scelgo un valore di , supponiamo ( ). Ora uso tentativi ed errori per determinare una buona dimensione del campione. Prendo un e vedo se la mia popolazione media campione è normalmente distribuita usando Kolmogorov-Smirnov. In tal caso, ripeto gli stessi passaggi ma con una dimensione del campione di , in caso contrario ripeto con una dimensione del campione di (ecc.). $x$ $n$ $x$ $10$ $x=10$ $n=50$ $40$ $60$

Dopo un po 'concludo che è la dimensione minima del campione assoluto per ottenere una rappresentazione più o meno buona della mia popolazione del 2011. Dal momento che so che la mia popolazione di interesse (tutte le richieste che sono terminate tra oggi e un giorno nel passato) ha una varianza minore, posso tranquillamente usare una dimensione del campione di per l'avvio. (Indirettamente, determina la dimensione del mio periodo di tempo: tempo necessario per completare richieste.) $n=45$ $n=45$ $n=45$ $45$

Questa è, in breve, la mia idea. Ma dal momento che non sono uno statistico ma un ingegnere le cui lezioni di statistica si sono svolte nei giorni passati, non posso escludere la possibilità di aver generato un sacco di immondizia :-). Che cosa ne pensate? Se la mia premessa ha senso, devo scegliere una maggiore di o inferiore? A seconda delle tue risposte (devo sentirmi imbarazzato o no? :-) Pubblicherò altre idee per la discussione. $x$ $10$

risposta alla prima risposta Grazie per la risposta, la tua risposta mi è stata molto utile, in particolare i link ai libri.
Ma temo che nel mio tentativo di fornire informazioni ho completamente oscurato la mia domanda. So che i campioni bootstrap si occupano della distribuzione del campione di popolazione. Ti seguo completamente ma ...

Il campione di popolazione originale deve essere abbastanza grande da essere moderatamente certo che la distribuzione del campione di popolazione corrisponda (uguale) alla distribuzione "reale" della popolazione.

Questa è semplicemente un'idea su come determinare quanto deve essere grande la dimensione del campione originale per essere ragionevolmente certi che la distribuzione del campione corrisponda alla distribuzione della popolazione.

Supponiamo di avere una distribuzione della popolazione bimodale e che una cima sia molto più grande dell'altra. Se la dimensione del campione è 5, la possibilità è che tutte e 5 le unità abbiano un valore molto vicino alla cima più grande (possibilità di disegnare casualmente un'unità che è la più grande). In questo caso la tua distribuzione del campione apparirà monomodale.

Con una dimensione del campione di cento, la possibilità che anche la distribuzione del campione sia bimodale è molto più grande !! Il problema con il bootstrap è che hai solo un esempio (e costruisci ulteriormente su quell'esempio). Se la distribuzione del campione in realtà non corrisponde alla distribuzione della popolazione, si è in difficoltà. Questa è solo un'idea per rendere la possibilità di avere una "cattiva distribuzione del campione" il più basso possibile senza dover aumentare la dimensione del campione all'infinito.

bootstrap sample-size methodology

— Siegfried
fonte

38

Mi sono interessato a questa domanda perché ho visto la parola bootstrap e ho scritto libri sul bootstrap. Inoltre le persone spesso chiedono "Di quanti campioni bootstrap ho bisogno per ottenere una buona approssimazione Monte Carlo al risultato bootstrap?" La mia risposta suggerita a questa domanda è quella di continuare ad aumentare le dimensioni fino a quando non si ottiene la convergenza. Nessun numero si adatta a tutti i problemi.

$n$ $n$ $n$ dal campione originale. La validità del principio bootstrap non dipende dal singolo campione "dall'aspetto rappresentativo della popolazione". Da cosa dipende è ciò che si sta stimando e alcune proprietà della distribuzione della popolazione (ad esempio, questo funziona per mezzi di campionamento con distribuzioni di popolazione che hanno varianze finite, ma non quando hanno varianze infinite). Non funzionerà per la stima degli estremi indipendentemente dalla distribuzione della popolazione.

La teoria del bootstrap consiste nel mostrare la coerenza della stima. Quindi si può dimostrare in teoria che funziona per campioni di grandi dimensioni. Ma può funzionare anche in piccoli campioni. L'ho visto funzionare per la stima del tasso di errore di classificazione particolarmente bene in campioni di piccole dimensioni come 20 per i dati bivariati.

Ora se la dimensione del campione è molto piccola --- diciamo 4 --- il bootstrap potrebbe non funzionare solo perché il set di possibili campioni bootstrap non è abbastanza ricco. Nel mio libro o nel libro di Peter Hall si discute di questo problema di dimensioni troppo ridotte. Ma questo numero di distinti campioni di bootstrap aumenta molto rapidamente. Quindi questo non è un problema anche per campioni di dimensioni fino a 8. Puoi dare un'occhiata a questi riferimenti:

Il mio libro: Metodi Bootstrap: una guida per professionisti e ricercatori
Il libro di Hall: The Bootstrap and Edgeworth Expansion

— Michael R. Chernick
fonte

3

Esiste un test standard da eseguire per verificare se (ad esempio 4 campioni) non è sufficiente? Ho un set di dati in cui sto calcolando gli intervalli di confidenza bootstrap per la media, ma alcuni individui hanno pochissimi punti dati (<8 in alcuni casi). Il mio istinto mi dice che dovrei ignorare le persone che hanno meno di n punti dati, ma come posso definire questo taglio n? Speravo di trovare un valore di cut-off generalmente accettato (analogo a come 6 o 7 è il punto di cut-off arbitrario per il numero di campioni per gruppo in un'analisi a modello misto).

— RTbecard,

0

verifica il campionamento bootstrap bayesiano che potrebbe far fronte a piccole dimensioni del campione. Vedi http://www.sumsar.net/blog/2015/04/the-non-parametric-bootstrap-as-a-bayesian-model/ per maggiori dettagli.

— Hanan Shteingart
fonte