Perché considerare il campionamento senza sostituzione in un'applicazione pratica?


12

Il campionamento con la sostituzione ha due vantaggi rispetto al campionamento senza sostituzione a mio avviso:

1) Non devi preoccuparti della correzione della popolazione finita.

2) Esiste la possibilità che elementi della popolazione vengano disegnati più volte, quindi è possibile riciclare le misurazioni e risparmiare tempo.

Naturalmente da un POV accademico si devono investigare entrambi i metodi. Ma da un POV pratico non vedo il motivo per cui si potrebbe prendere in considerazione il campionamento senza sostituzione, visti i vantaggi della sostituzione.

Ma sono un principiante nelle statistiche, quindi potrebbero esserci molte buone ragioni per cui senza la sostituzione potrebbe essere la scelta migliore - almeno per casi d'uso specifici. Per favore, mi confondi!


3
Suggerimento: considerare quale sia l'effetto dell'applicazione della correzione finita della popolazione e perché ciò potrebbe essere vantaggioso. (Nota anche che (1) fare somme è quasi sempre meno problemi e spese rispetto alla raccolta di dati; (2) se riesci a distinguere gli individui non dovresti "riciclare" le misurazioni, ma basare l'inferenza solo su individui distinti.)
Scortchi - Ripristina Monica

Onestamente, in realtà non capisco nessuna delle tue affermazioni. L'FPC compensa le conseguenze numeriche della mancanza di indipendenza delle misurazioni. Ma non so perché sia ​​vantaggioso. (1) come si collega alla mia domanda? (2) Perché "non dovresti" riciclare una misurazione? Non lo fa la conseguenza logica diretta di aver disegnato per coincidenza due volte lo stesso oggetto quando si campiona con la sostituzione?
Raffael,

Risposte:


13

Espandendo la risposta di @Scortchi. . .

Supponiamo che la popolazione avesse 5 membri e che tu abbia un budget per campionare 5 individui. Sei interessato alla media della popolazione di una variabile X, una caratteristica degli individui in questa popolazione. Potresti farlo a modo tuo e campionare casualmente con la sostituzione. La varianza della media del campione sarà V (X) / 5.

D'altra parte, supponiamo di campionare i cinque individui senza sostituzione. Quindi, la varianza della media campionaria è 0. Hai campionato l'intera popolazione, ogni individuo esattamente una volta, quindi non c'è distinzione tra "media campionaria" e "media demografica". Sono la stessa cosa.

Nel mondo reale, dovresti saltare di gioia ogni volta che devi fare la correzione della popolazione finita perché (rullo di tamburi ...) fa scendere la varianza del tuo stimatore senza che tu debba raccogliere più dati. Quasi nulla fa questo. È come per magia: buona magia.

Dire esattamente la stessa cosa in matematica (presta attenzione a <, e supponi che la dimensione del campione sia maggiore di 1):

finite sample correction=NnN1<N1N1=1

Correzione <1 significa che l'applicazione della correzione fa scendere la varianza, poiché si applica la correzione moltiplicandola per la varianza. Varianza GIÙ == buono.

Spostandoti nella direzione opposta, completamente lontano dalla matematica, pensa a ciò che stai chiedendo. Se vuoi conoscere la popolazione e puoi campionarne 5 persone, sembra probabile che imparerai di più correndo la possibilità di campionare lo stesso ragazzo 5 volte o sembra più probabile che imparerai di più garantendo che assaggi 5 ragazzi diversi?

Il caso del mondo reale è quasi l'opposto di quello che stai dicendo. Non provi quasi mai con la sostituzione --- è solo quando stai facendo cose speciali come il bootstrap. In tal caso, stai effettivamente cercando di rovinare lo stimatore e dargli una varianza "troppo grande".


Sotto "bootstrap" ho capito usando un parametro del campione al posto del parametro della popolazione (che in realtà avresti dovuto usare) per stimare un parametro della popolazione. Perché dovresti essere interessato a "rovinare" lo stimatore e dargli una varianza "troppo grande"?
Raffael,

1
@ Яaffael Sto parlando di bootstrap non parametrico. Prendi il tuo campione (diciamo della dimensione 100), ri-campionalo da esso con la sostituzione (100 volte producendo un campione bootstrap della dimensione 100) e quindi ricalcola lo stimatore di interesse. Stai trattando il campione come una popolazione di giocattoli, simulando di estrarre un campione da esso, calcolando uno stimatore. Se esegui il campionamento dalla popolazione di giocattoli senza sostituzione, copierai esattamente la popolazione di giocattoli nel campione, ottenendo la stima originale come nuova stima (ovvero varianza = 0). Per evitarlo, quindi campionare con la sostituzione.
Bill

5

La precisione delle stime è generalmente più elevata per il campionamento senza sostituzione rispetto al campionamento con sostituzione.

Ad esempio, è possibile selezionare solo un elemento volte quando il campionamento viene eseguito con la sostituzione in un caso estremo. Ciò potrebbe portare a una stima molto imprecisa del parametro di popolazione di interesse. Tale situazione non è possibile sotto campionamento senza sostituzione. Quindi la varianza è di solito inferiore per le stime fatte dal campionamento senza sostituzione.n


2

Non penso che le risposte qui siano totalmente adeguate e sembrano argomentare per il caso limite in cui la tua quantità di dati è molto bassa.

Con un campione sufficientemente grande, questo non è affatto un problema, specialmente con molti campioni bootstrap (~ 1000). Se ho prelevato dalla vera distribuzione un set di dati di dimensioni 10.000 e ricampiono con la sostituzione 1.000 volte, la varianza che ottengo (al contrario della varianza che otterrei senza la sostituzione) è totalmente trascurabile.

Direi che la risposta più accurata è questa: il ricampionamento senza sostituzione è essenziale per stimare la fiducia di una statistica di secondo ordine . Ad esempio, se sto usando un bootstrap per stimare l'incertezza che ho in una misurazione della dispersione. Disegnare con una sostituzione per tale quantità può distorcere artificialmente le dispersioni recuperate basse.

Per un esempio concreto con dati reali, se sei all'altezza, consulta questo documento https://arxiv.org/abs/1612.02827

discute brevemente la tua domanda a pagina 10


0

Ho un risultato che tratta praticamente senza sostituzione praticamente come con la sostituzione e rimuove tutte le difficoltà. Si noti che con i calcoli di sostituzione sono molto più facili. Quindi, se una probabilità comporta p e q, probabilità di successo e fallimento, in caso di sostituzione, la probabilità corrispondente in senza caso di sostituzione si ottiene semplicemente con la sostituzione di p ^ aq ^ b con (Nab) C (Ra) per qualsiasi aeb, dove N, R sono il numero totale di palline e il numero di palline bianche. Ricorda che p viene trattato come R / N.

K.Balasubramanian


c'è stata un'omissione. (Nab) C (Ra) / (NCR) è l'espressione corretta. Ad esempio, la media np diventa n (N-1-0) / (R-1) / NCR. puoi controllare qualsiasi risultato del genere.
Krish Balasubramanian,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.