Perché si afferma che un campione è spesso più accurato di un censimento?


13

Quando apprendo il corso del campionamento, incontro le seguenti due affermazioni:

1) L'errore di campionamento porta principalmente alla variabilità, gli errori di non campionamento portano a distorsioni.

2) A causa di un errore di non campionamento, un campione è spesso più accurato di un CENSUS.

Non so come comprendere queste due affermazioni. Qual è la logica sottostante per ottenere queste due affermazioni?


5
Un vero censimento o un tentativo ?
cardinale il

Risposte:


16

Un campione potrebbe essere più preciso di un censimento (tentato) se il fatto che l'esercizio è un censimento aumenta la tendenza all'errore non campionario. Ciò potrebbe accadere, ad esempio, se il censimento generasse una campagna politica avversa a favore della mancata risposta (qualcosa di meno probabile che accada a un campione). A meno che ciò non accada, non riesco a capire perché ci si aspetta che un campione abbia meno errori di non campionamento rispetto a un censimento; e per definizione avrà più errori di campionamento. Quindi, a parte circostanze piuttosto insolite, direi che un censimento sarà più accurato di un campione.

Considerare una fonte comune di errore di non campionamento - mancata risposta sistematica, ad esempio da un particolare gruppo socio demografico. Se è probabile che le persone del gruppo X rifiutino il censimento, è altrettanto probabile che rifiutino il campione. Anche con poststratification campionamento per ponderare le risposte di quelle persone appartenenti al gruppo X che si fa convincere a rispondere alle vostre domande, avete ancora un problema, perché quelli potrebbero essere il segmento di X che sono pro-sondaggi. Non esiste alcun modo per aggirare questo problema se non quello di essere il più cauti possibile nella progettazione dello strumento e del metodo di consegna.

Di fatto, ciò attira l'attenzione su un possibile problema che potrebbe rendere un tentativo di censimento meno accurato di un campione. I campioni hanno abitualmente una ponderazione post-stratificazione per la popolazione, che mitiga i problemi di distorsione da problemi come quello nel mio paragrafo sopra. Un tentativo di censimento che non ottiene un ritorno del 100% è solo un grande campione e, in linea di principio, dovrebbe essere soggetto alla stessa elaborazione; ma poiché è visto come un "censimento" (piuttosto che un tentativo di censimento) questo può essere trascurato. In tal modo il censimento potrebbe essere meno accurato del campione opportunamente ponderato. Ma in questo caso il problema è la tecnica di elaborazione analitica (o omissione di), non qualcosa di intrinseco al suo tentativo di censimento.

L'efficienza è un'altra cosa: come dice Michelle, un campione ben condotto sarà più efficiente di un censimento e potrebbe avere un'accuratezza sufficiente per scopi pratici.


1
+1 Questo riflette uno sforzo riflessivo e informativo per comprendere la domanda e ciò che la motiva.
whuber

Penso che la differenza tra un campione e un censimento incompleto sia più che semplicemente una maggiore propensione a ponderare le risposte in un campione. Dopotutto, i dati di ponderazione devono provenire da qualche parte: un censimento o un campionamento di qualità superiore.
Jonathan,

Vorrei davvero enfatizzare la capacità di minimizzare la distorsione da non risposta in un campione. Pochissimi censimenti hanno la capacità di inseguire efficacemente pregiudizi senza risposta - anche le lotte del censimento degli Stati Uniti. Forse gli unici che possono farlo bene sono i sondaggi sulla soddisfazione dei dipendenti. È molto più conveniente andare dopo la non risposta in un sondaggio campionato.
Jonathan,

In un censimento, potrebbe essere (sarà) costoso controllare la qualità di ogni intervista / ...! Molto spesso, la qualità dei dati sarà migliore in un campione che in un censimento.
kjetil b halvorsen,

5

Penso che ci siano situazioni pratiche in cui un campione può essere più preciso. Ad esempio, abbiamo fatto uno studio in una città in un paese in via di sviluppo con molte persone che vivono in luoghi non registrati e persone che vanno e vengono costantemente e sono timide nel rispondere. Cercare di fare effettivamente un censimento avrebbe richiesto uno sforzo erculeo e, date le nostre risorse, avrebbe dovuto essere fatto nel corso di un paio di mesi, quando la gente andava e veniva. Con un campione, potremmo trascorrere più tempo assicurandoci di avere il più vicino possibile alla risposta completa, perché potremmo spiegare cosa stavamo facendo e potremmo farlo in un arco di tempo molto più breve che eliminerebbe il problema di persone che entrano ed escono dalla città.

Quindi penso che la risposta dipenda maggiormente dalla logistica di ciò che stai facendo e dalle varie fonti di errore non campionario.

In effetti, un'altra fonte era che il nostro sondaggio era complesso e dovevamo formare gli intervistatori e trovare e finanziare abbastanza intervistatori addestrabili in quel paese sarebbe stato molto difficile.


5

Quando si campionano gli esseri umani per i sondaggi, i campioni spesso soffrono sia di errori di campionamento (stiamo solo ottenendo stime) sia di errori di non campionamento (ad esempio, le persone che si rifiutano di rispondere al sondaggio, non di campionare al frame di campionamento di cui abbiamo bisogno a causa di considerazioni pratiche come il costo, o incapacità di identificare accuratamente la popolazione al fine di estrarre il campione). Fatto correttamente, con alti tassi di risposta, un campione è più efficiente di un censimento. Ma non è corretto supporre che nessun campione contenga errori di non campionamento.


+1. Grazie per la tua risposta, Michelle, e benvenuto nella nostra community!
whuber

1
Ciao whuber, è bello essere qui. Grazie per il benvenuto :)
Michelle,

1
@Michelle Solo una piccola correzione. L'errore di campionamento è un errore che deriva dal non selezionare l'intera popolazione, ovvero un errore dovuto all'utilizzo di un campione per inferire le caratteristiche della popolazione. L'errore non di campionamento è tutto il resto, inclusa la mancata risposta, la mancata creazione di un frame di campionamento adeguato, errori di misurazione, ecc.
Brett

3

Penso che la chiave sia nella risposta di Peter Ellis: "tentato". Quando esegui il campionamento correttamente, sudi i dettagli della mancata risposta, capisci gli strati e li cerchi, ecc. Quando decidi di fare un censimento, è facile ignorare quei problemi, dato che ottieni "tutti". Il problema è che probabilmente non stai ottenendo tutti, ma non stai pensando a chi non stai effettivamente ricevendo.

Esistono anche problemi statistici con campioni estremamente grandi (in proporzione alla popolazione campionata). Non sono abbastanza sofisticato per capirli, ma almeno hai problemi con i calcoli della varianza. (Pacchetti come R's surveycompensano queste cose in grandi sottopopolazioni di un sondaggio, ed è qui che ho appreso per la prima volta su questo.)

Come problema secondario, se l'errore non campione include problemi dovuti al controllo di qualità in varie fasi del processo, avere un numero enormemente maggiore di dati (censimento) renderebbe molto più difficile avere il livello di controllo di qualità che avresti (con lo stesso risorse) su un set di dati più piccolo (campione).

Immagina di avere le risorse (finanziarie e di personale) utilizzate dall'Ufficio censimento degli Stati Uniti per un censimento, ma stavi solo facendo un sondaggio su 1.000 adulti casuali. Penso che avresti un controllo di qualità molto migliore e un'analisi molto migliore delle problematiche coinvolte e dei dati stessi.


2

Ho pensato che il motivo per cui il campionamento potesse essere (non è) più accurato del censimento in realtà avesse un componente che è attribuibile alla natura di un censimento rispetto a un campione e che può essere attribuito come causa di un censimento potenzialmente potenzialmente più incline (ovviamente non campionamento, per definizione): in un censimento, il numero della popolazione è generalmente sconosciuto. Quindi minimizzare o controllare la distorsione da mancata risposta è molto più difficile che farlo con un campione di dimensioni note.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.