Cosa succede se il campione casuale non è chiaramente rappresentativo?


28

Che cosa succede se si preleva un campione casuale e si vede che non è chiaramente rappresentativo, come in una domanda recente . Ad esempio, cosa succede se la distribuzione della popolazione dovrebbe essere simmetrica intorno a 0 e il campione che si estrae casualmente ha osservazioni positive e negative sbilanciate e lo squilibrio è statisticamente significativo, dove ti lascia? Quali affermazioni ragionevoli puoi fare sulla popolazione in base a un campione distorto? Qual è una linea di condotta ragionevole in una situazione del genere? Importa quando nella nostra ricerca notiamo questo squilibrio?


2
Michael, ci si potrebbe aspettare che questo problema si verifichi una volta su 20, se utilizziamo il significato statistico come metrica. Molto spesso non sappiamo quando abbiamo scelto casualmente un campione non rappresentativo perché non sappiamo abbastanza della popolazione. Ma quando sappiamo qualcosa sulla popolazione e notiamo una tale anomalia, cosa facciamo?
Joel W.

3
Sì, la pratica più corretta è ottenere un campione casuale abbastanza grande, come ha scritto @MichaelChernick. Tuttavia, uno dei miei professori mi ha detto di aver verificato con la simulazione Monte Carlo che, quando un ricercatore deve aumentare la dimensione del campione, non è così corretto semplicemente aggiungere unità statistiche al campione, ma bisogna ripetere il campionamento. Altrimenti, le statistiche potrebbero essere distorte (ancora una volta!).
this.is.not.a.nick

4
@Michael, non capisco perché la tua affermazione sia vera. Un valore p inferiore a 0,05 si verificherà con l'ipotesi nulla il 5% delle volte indipendentemente dalla dimensione del campione. Quindi, come è possibile che campioni di dimensioni maggiori risolvano questo problema? Mi sembra che la tua raccomandazione inviti implicitamente i lettori a confondere le dimensioni e la potenza dei test di ipotesi.
whuber

2
@Michael, cosa vuoi dire che dovremmo raccogliere più dati a caso? Speriamo di disegnare casualmente un campione distorto nella direzione opposta? In ogni caso, quale numero di casi aggiuntivi dovremmo trarre? Suggerisci di impostare un numero all'inizio o di utilizzare una regola di arresto? Se una regola di arresto, come potrebbe essere la regola? Infine, anche se il campione più grande risultante non ha alcun bias statisticamente significativo, sappiamo che è composto da due campioni, uno con bias e uno senza. Quali affermazioni ragionevoli puoi fare sulla popolazione in base a un campione così complesso?
Joel W.

2
@Michael Una conclusione alternativa è che un campione altamente significativo e fortemente distorto indica un problema con la procedura di campionamento. In tal caso, la mancanza di simmetria persisterà in un campione più ampio.
whuber

Risposte:


7

La risposta data da MLS (usa il campionamento per importanza) è valida solo quanto i presupposti che puoi fare sulle tue distribuzioni. Il principale punto di forza del paradigma del campionamento della popolazione finita è che non è parametrico, in quanto non fa alcuna ipotesi sulla distribuzione dei dati per fare (valide) inferenze sui parametri della popolazione finita.

Un approccio per correggere gli squilibri del campione si chiama post-stratificazione . È necessario suddividere il campione in classi non sovrapposte (post-strati), quindi riclassificare queste classi in base alle cifre della popolazione nota. Se la tua popolazione ha una mediana pari a 0, puoi ponderare le osservazioni positive e negative in modo che le loro proporzioni ponderate diventino 50-50: se avessi un SRS sfortunato con 10 osservazioni negative e 20 osservazioni positive, daresti il quelli negativi il peso di 15/10 = 1,5 e quelli positivi, 15/20 = 0,75.

Esistono forme più sottili della calibrazione del campione , in cui è possibile calibrare il campione per soddisfare vincoli più generali, come avere una media di una variabile continua per essere uguale al valore specifico. Il vincolo di simmetria è piuttosto difficile da lavorare, anche se potrebbe essere fattibile. Può essere che Jean Opsomer abbia qualcosa su questo: ha fatto molto lavoro di stima del kernel per i dati del sondaggio.


In che modo la post-stratificazione si confronta, logicamente o statisticamente, con il semplice scartare il campione sbilanciato e disegnare un altro campione? (A volte disegnare il campione è la parte della ricerca ad alta intensità di lavoro, ma a volte è ciò che viene fatto dopo aver disegnato il campione ad alta intensità di lavoro e disegnare il campione comporta uno sforzo relativamente minore, come in molte ricerche sperimentali.)
Joel W .

2
Non sono mai stato in una situazione in cui scartare i dati è la risposta migliore e non li ho mai visti discussi in nessuno dei libri statistici delle indagini. Nella maggior parte delle statistiche dei sondaggi, ottenere i dati è almeno cinque volte più costoso di qualsiasi delle seguenti elaborazioni e analisi dei dati (tranne probabilmente per alcuni sondaggi web economici in cui la raccolta dei dati è quasi gratuita). Se ti trovi in ​​un mondo sperimentale, non dovresti etichettare il tuo post "campionamento", e piuttosto usare "disegno sperimentale".
StasK,

I campioni casuali possono essere usati piuttosto che stratificati perché ci sono molti modi possibili per stratificare in un ambiente reale. Può succedere che dopo aver selezionato due campioni casuali per un esperimento, noti uno squilibrio flagrante. Quindi sei bloccato tra una roccia e un luogo difficile: vivi con lo squilibrio (ad esempio, tutte le persone anziane in un gruppo, tutti i non madrelingua in un gruppo, tutti i dottorandi in un gruppo, ecc.), Oppure disegna un nuovo campione e indebolire la connessione tra ciò che hai fatto e le ipotesi di tutte le tecniche statistiche. La post-stratificazione sembra essere del secondo tipo.
Joel W.

2

Sono il Junior Member qui, ma direi che scartando e ricominciare da capo è sempre la migliore risposta, se si sa che il campione è significativamente rappresentativo, e se si ha un'idea di come il campionamento rappresentativo sorse in primo luogo e come evitarlo se possibile la seconda volta.

A cosa servirà campionare una seconda volta se probabilmente finirai sulla stessa barca?

Se ripetere la raccolta dei dati non ha senso o è proibitivamente costoso, devi lavorare con ciò che hai, tentando di compensare l'irreprensibilità attraverso la stratificazione, l'imputazione, la modellazione più elaborata o altro. Devi notare chiaramente che hai compensato in questo modo, perché pensi che sia necessario e perché pensi che abbia funzionato. Quindi elabora l'incertezza derivante dalla tua compensazione fino in fondo attraverso la tua analisi. (Renderà le tue conclusioni meno certe, vero?)

Se non riesci a farlo, devi eliminare completamente il progetto.


Che cosa succede se non sai perché il campione non è rappresentativo, sei ancora giustificato a scartarlo e disegnare un nuovo campione casuale? In caso contrario, perché no? Inoltre, supponiamo che scarti il ​​primo campione e ne disegni un secondo, le statistiche inferenziali che potresti calcolare in base al secondo campione sono in qualche modo inadeguate a causa del primo campione scartato? Ad esempio, se ti iscrivi a scartare campioni non rappresentativi, stai cambiando la distribuzione di campionamento su cui si basa il tuo test statistico? In tal caso, stai rendendo più facile o più difficile trovare significati statistici?
Joel W.

@Wayne Buona idea.
Subhash C. Davar,

1

qpp

sp=E{f(X)|Xp}s(p)f{x1,,xn}p

sp1ni=1nf(xi).
xiqsp
sp1ni=1np(xi)q(xi)f(xi).
E{p(X)q(X)f(X)|Xq}=p(X)f(X)dx,

Dici che il campione non è distorto e qualsiasi tentativo di correggere il campione aggiungerà pregiudizio. Suggerisco che il processo attraverso il quale il campione è stato raccolto è privo di pregiudizi ma, di fatto, il campione è distorto, forse fortemente distorto. Ci sono modi per provare a correggere il grande pregiudizio noto che ci si potrebbe aspettare che introduca un pregiudizio aggiuntivo relativamente piccolo?
Joel W.

1
Per chiarire un po 'la terminologia: penso al bias come a una proprietà dell'aspettativa di una variabile casuale. In altre parole, se il processo che raccoglie i dati è imparziale, lo è anche il campione. Tuttavia, il campione può essere ancora atipico e portare a conclusioni indesiderate. Qualsiasi modo generale per risolvere questo problema provoca distorsioni, poiché si sta adattando la procedura di campionamento (imparziale). Probabilmente l'approccio meno distorto è quello di raccogliere e utilizzare nuovi campioni. Un approccio leggermente più distorto aggiungerebbe questi nuovi campioni a quelli vecchi, ma il risultato potrebbe essere meno variabile dato che hai più campioni in totale.
MLS,

2
@Joel W. Cosa intendi quando dici che il campione è distorto? È la stima della media basata sul campione distorta? Qualsiasi stima del campione differirà dalla media reale e alcune potrebbero essere molto lontane. Quando si campiona a caso ciò è dovuto alla varianza e non alla distorsione. Non è giusto dire che un campione è distorto perché la distribuzione del campione sembra molto diversa dalla distribuzione per la popolazione. In piccoli campioni molti possono sembrare non rappresentativi per un motivo o per l'altro, ma il campionamento casuale non è distorto.
Michael R. Chernick,

1
@Michael, sono d'accordo che dobbiamo riconoscere e vivere con varianza casuale quando dobbiamo. Sto chiedendo cosa potremmo ragionevolmente fare quando rileviamo una varianza non intenzionale. Cosa succede se il nostro campione casuale risulta includere relativamente troppi giovani, o troppi operai, ecc., Quando tali categorie sono rilevanti per la nostra ricerca? Andando ancora oltre, dovremmo controllare i nostri campioni per vedere se sono sbilanciati in questi modi? E importa se lo notiamo prima di fare ulteriori ricerche con il campione o dopo che abbiamo investito risorse nel condurre ricerche con il campione?
Joel W.

1
Lo squilibrio covariato è molto importante. Se esiste in un campione, è possibile utilizzare un modello di regressione per adattarlo. Vance Berger ha scritto un libro su questo argomento che probabilmente ho citato in precedenza su questo sito. Ecco un link amazon a una descrizione del libro. amazon.com/Selection-Covariate-Imbalances-Randomized-Statistics/…
Michael R. Chernick,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.