Come creare un set di campioni rappresentativo da un set di dati globale di grandi dimensioni?

10

Quali sono le tecniche statistiche per creare un set di campioni, che è rappresentativo dell'intera popolazione (con un livello di confidenza noto)?

Anche,

Come convalidare, se il campione si adatta all'insieme di dati complessivo?
È possibile, senza analizzare l'intero set di dati (che potrebbe essere miliardi di record)?

sampling sample-size validation

— Mohit Ranka
fonte

8

Se non si desidera analizzare l'intero set di dati, probabilmente non è possibile utilizzare il campionamento stratificato , quindi suggerirei di prelevare un campione casuale semplice di grandi dimensioni . Prendendo un campione casuale , si assicura che il campione sarà, in media, rappresentativo dell'intero set di dati e che le misure statistiche standard di precisione come errori standard e intervalli di confidenza indicano quanto lontano sono probabili i valori della popolazione dalle stime del campione per essere, quindi non è necessario convalidare che un campione sia rappresentativo della popolazione a meno che non si abbia qualche preoccupazione che sia stata realmente campionata a caso.

Quanto è grande un semplice campione casuale? Bene, più grande è il campione, più precise saranno le tue stime. Dato che disponi già dei dati, i calcoli delle dimensioni dei campioni convenzionali non sono realmente applicabili: puoi anche utilizzare tanto il tuo set di dati quanto è pratico per l'elaborazione. A meno che tu non stia pianificando di fare alcune analisi complesse che renderanno il tempo di calcolo un problema, un approccio semplice sarebbe quello di rendere il campione casuale semplice più grande che può essere analizzato sul tuo PC senza portare al paging $2^{31}$

È quindi una questione di semplice aritmetica calcolare quante osservazioni è possibile campionare dati quante variabili hai per ogni osservazione e quanti byte occupa ciascuna variabile.

— una fermata
fonte

Grazie per la tua risposta. Immagino che sto cercando un campionamento stratificato. (Stavo cercando algoritmi, che non sono molto costosi dal punto di vista computazionale, in quanto non analizzano l'intera popolazione, per creare un set rappresentativo, non ha nemmeno senso. :-))

— Mohit Ranka,

2

Alla prima domanda, potresti chiedere: "come sono stati inseriti i dati?" Se ritieni che i dati siano stati inseriti in modo relativamente arbitrario (ovvero, indipendentemente da qualsiasi caratteristica osservabile o non osservabile delle tue osservazioni che potrebbe influenzare la tua ultima analisi usando i dati), allora potresti considerare i primi 5 milioni, diciamo, o comunque molti con cui ti senti a tuo agio a lavorare, come rappresentante dell'intero campione e seleziona a caso da questo gruppo per creare un campione con cui puoi lavorare.

Per confrontare due distribuzioni empiriche, è possibile utilizzare i grafici qq e il test non parametrico a due campioni Kolmogorov – Smirnov per le differenze nelle distribuzioni (vedere, ad esempio, qui: http://en.wikipedia.org/wiki/Kolmogorov%E2 % 80% 93Smirnov_test ). In questo caso, verificheresti la distribuzione di ciascuna variabile nel tuo campione rispetto alla distribuzione di quella variabile nel tuo set di dati "completo" (di nuovo, potrebbero essere solo 5 milioni di osservazioni dal tuo intero campione). Il test KS può soffrire di bassa potenza (cioè, è difficile rifiutare l'ipotesi nulla di nessuna differenza tra i gruppi), ma, con così tante osservazioni, dovresti stare bene.

— Charlie
fonte