SurveyMonkey ignora il fatto che si ottiene un campione non casuale?

SurveyMonkey ha passaggi e un grafico per capire quale dimensione del campione è necessaria per un dato margine di errore o intervallo di confidenza, in base alla dimensione della popolazione.

Dimensione del campione SurveyMonkey

Questo grafico ignora semplicemente il fatto che non otterrai un campione casuale, dal momento che ottieni solo le persone che si preoccupano di rispondere al sondaggio?

Mi viene avvisato mentre scrivo che la domanda sembra soggettiva, quindi forse non la sto ponendo correttamente. Non si tratta davvero di SurveyMonkey ma è una domanda più generale: puoi effettivamente calcolare gli intervalli di confidenza dai dati di risposta volontaria usando alcune tecniche avanzate di cui non sono a conoscenza?

Nei sondaggi di uscita o nelle indagini nazionali, ovviamente, devono affrontare questo problema. La mia formazione non ha approfondito le tecniche di campionamento del sondaggio, ma presumo coinvolga la raccolta di dati demografici e l'utilizzo di questi per sapere quanto rappresentativo di un campione hai.

Ma a parte questo, per un semplice sondaggio online, stanno solo supponendo che le persone che si preoccupano di rispondere siano un campione casuale della popolazione?

— opaco
fonte

La risposta breve è sì: Survey Monkey ignora esattamente come hai ottenuto il tuo campione. Survey Monkey non è abbastanza intelligente da presumere che ciò che hai raccolto non sia un esempio di convenienza, ma praticamente ogni sondaggio di Survey Monkey è un esempio di convenienza. Ciò crea un'enorme discrepanza esattamente in ciò che stai stimando che nessuna quantità di campionamento puro può / eliminerà. Da un lato potresti definire una popolazione (e le relative associazioni) che potresti ottenere da un SRS. D'altra parte, è possibile definire una popolazione definita dal campionamento non casuale, le associazioni non ci si puòstima (e le regole di potere valgono per tali valori). Spetta a te come ricercatore discutere la discrepanza e lasciare che il lettore decida esattamente quanto possa essere valido il campione non casuale nell'approssimare una tendenza reale.

Come punto di vista, ci sono usi incoerenti del termine bias. Nella teoria delle probabilità, il bias di uno stimatore è definito da . Tuttavia, uno stimatore può essere distorto, ma coerente, in modo tale che il bias "svanisca" in grandi campioni, come il bias delle stime di massima verosimiglianza della deviazione standard dei camper normalmente distribuiti. cioè . Gli stimatori che non hanno pregiudizi evanescenti, (ad esempio ) sono chiamati incoerenti $\mbox{Bias}_n = \theta - \hat{\theta}_n$ $\hat{\theta} \rightarrow_p \theta$ $\hat{\theta} \not\to_p \theta$ nella teoria della probabilità. Esperti di progettazione dello studio (come gli epidemiologi) hanno preso una cattiva abitudine di chiamare incoerenza "bias". In questo caso, è parzialità di selezione o propensione al volontariato. È certamente una forma di pregiudizio, ma l'incoerenza implica che nessuna quantità di campionamento potrà mai correggere il problema.

Per stimare le associazioni a livello di popolazione dai dati del campione di convenienza, è necessario identificare correttamente il meccanismo di probabilità di campionamento e utilizzare la ponderazione inversa delle probabilità in tutte le stime. In situazioni molto rare questo ha senso. L'identificazione di tale meccanismo è praticamente impossibile nella pratica. Un tempo che può essere fatto è in una coorte di persone con informazioni precedenti che sono state contattate per compilare un sondaggio. La probabilità di non risposta può essere stimata in funzione delle informazioni precedenti, ad esempio età, sesso, SES, ... La ponderazione ti dà la possibilità di estrapolare quali risultati sarebbero stati nella popolazione dei non responder. Il censimento è un buon esempio del coinvolgimento della ponderazione inversa delle probabilità per tali analisi.

— ADAMO
fonte

Potresti approfondire un po 'il senso in cui un campione di convenienza potrebbe essere considerato incoerente ma non distorto ? Storicamente molti esempi di convenienza si sono rivelati fortemente distorti (e "distorto" è precisamente il termine che le persone hanno usato per descriverli): il sondaggio di Literary Digest del 1936 è forse l'esempio più famoso.

— whuber

@whuber Perdona il mio uso "incoerente" della terminologia. Il pregiudizio era qualcosa che supponevo andasse via in grandi campioni, mentre le stime che sono incoerenti non convergono mai in grandi campioni. Nella teoria prob, gli esempi di stimatori incoerenti sono pochi e lontani tra loro, ma dal punto di vista del design di uno studio spuntano continuamente. È interessante notare che gli epidemiologi tendono a chiamare quel "bias" (cioè il bias di selezione). Ma la domanda sui manifesti sembrava suggerire che "campionare di più" allevierebbe il pregiudizio, come potrebbe essere il caso di un tipo di pregiudizio della teoria della probabilità.

— AdamO,

Non sono sicuro di aver capito tutto, quindi permettimi di concentrarmi solo su una piccola parte: stai (o non stai affermando) che campioni più grandi [di convenienza] riducono il bias? Spero di no, perché questo è certamente falso! (Questa è una delle ragioni per cui il sondaggio di Literary Digest è noto: è uno dei più grandi mai intrapresi e ha mostrato anche uno dei più grandi pregiudizi.)

— whuber

Anzi no! Campionare di più non eliminerebbe questo pregiudizio intrinseco. Questo è il problema qui. Il poster è interessato al potere di stimare l'associazione della popolazione con un campione non casuale, e il mio punto è che hai sempre 0 potere di stimarlo (a meno che non vengano impiegati meccanismi di ponderazione molto attenti e complessi).

— AdamO,

Grazie per l'ultimo commento; chiarisce una parte della tua risposta che altrimenti avrei potuto interpretare male. (+1)

— whuber