Sembra che tu stia immaginando un modello di campionamento molto semplice.
Il modello più semplice per il campionamento si chiama appropriatamente campionamento casuale semplice . Seleziona un sottoinsieme della popolazione (ad es. Componendo i numeri di telefono in modo casuale) e chiedi a chiunque risponda a come stanno votando. Se 487 dicono Clinton, 463 dicono Trump, e il resto ti dà una risposta stravagante, la ditta elettorale segnalerebbe che il 49% degli elettori preferisce Clinton, mentre il 46% preferisce Trump. Tuttavia, le società elettorali fanno molto di più. Un semplice campione casuale dà uguale peso a ogni punto dati. Tuttavia, supponiamo che il campione contenga - per caso - 600 uomini e 400 donne, che chiaramente non sono rappresentativi della popolazione nel suo insieme. Se gli uomini come gruppo si inclinano in un modo, mentre le donne si appoggiano in un altro, questo influenzerà il tuo risultato. Tuttavia, poiché disponiamo di statistiche demografiche piuttosto buone, puoi ponderare *le risposte contando un po 'di più le risposte delle donne e un po' meno quelle degli uomini, in modo che la risposta ponderata rappresenti meglio la popolazione. Le organizzazioni di polling hanno modelli di pesatura più complicati che possono rendere un campione non rappresentativo simile a uno più rappresentativo.
L'idea di ponderare le risposte campionate è su un terreno statistico piuttosto solido, ma esiste una certa flessibilità nella scelta dei fattori che contribuiscono ai pesi. La maggior parte dei sondaggisti ripensa in base a fattori demografici come sesso, età e razza. Detto questo, potresti pensare che dovrebbe essere inclusa anche l'identificazione del partito (democratico, repubblicano, ecc.), Ma si scopre che la maggior parte delle aziende elettorali non lo usano nei loro pesi: l' identificazione del partito (auto) è aggrovigliata con la scelta dell'elettore in un modo che lo rende meno utile.
Molti sondaggi indicano anche i loro risultati tra i "probabili elettori". In questi, gli intervistati vengono selezionati o ponderati in base alla probabilità che si presentino effettivamente ai sondaggi. Anche questo modello è senza dubbio basato sui dati, ma la scelta precisa dei fattori consente una certa flessibilità. Ad esempio, includere le interazioni tra il candidato e la razza (o il genere) degli elettori non era nemmeno ragionevole fino al 2008 o al 2016, ma sospetto che abbiano un potere predittivo ora.
In teoria, potresti includere ogni genere di cose come fattori di ponderazione: preferenze musicali, colore degli occhi, ecc. Tuttavia, i fattori demografici sono scelte popolari per i fattori di ponderazione perché:
- Empiricamente, si correlano bene con il comportamento degli elettori. Ovviamente, non esiste una legge vestita di ferro che "costringa" i bianchi a essere magri repubblicani, ma negli ultimi cinquant'anni hanno avuto la tendenza.
- I valori della popolazione sono ben noti (ad es. Dal censimento o Vital Records)
Tuttavia, i sondaggisti vedono anche le stesse notizie di tutti gli altri e, se necessario, possono regolare le variabili di ponderazione.
Ci sono anche alcuni "fattori di fondente" che a volte vengono invocati per spiegare i risultati del sondaggio. Ad esempio, gli intervistati a volte sono riluttanti a dare risposte "socialmente indesiderabili". L' effetto Bradley postula che a volte gli elettori bianchi minimizzano il loro sostegno ai candidati bianchi che si scontrano con una minoranza per evitare di apparire razzisti. Prende il nome da Tom Bradley, un candidato governativo afroamericano che ha perso per poco le elezioni nonostante abbia guidato comodamente nei sondaggi.
Infine, hai perfettamente ragione che l'atto stesso di chiedere l'opinione di qualcuno può cambiarlo. Le imprese elettorali cercano di scrivere le loro domande in modo neutrale. Per evitare problemi con l'ordine delle possibili risposte, i nomi dei candidati potrebbero essere elencati in ordine casuale. Le versioni multiple di una domanda sono talvolta testate l'una contro l'altra. Questo effetto può anche essere sfruttato per fini nefasti in un sondaggio push , in cui l'intervistatore non è effettivamente interessato a raccogliere risposte ma a influenzarle. Ad esempio, un sondaggio push potrebbe chiedere "Vorresti votare per [Candidato A] anche se fosse stato riferito che era un molestatore di minori?".
* Potresti anche fissare obiettivi espliciti per il tuo campione, come ad esempio 500 uomini e 500 donne. Questo si chiama
campionamento stratificato: la popolazione viene stratificata in diversi gruppi e ciascun gruppo viene quindi campionato a caso. In pratica, questo non viene fatto molto spesso per i sondaggi, perché avresti bisogno di stratificarti in molti gruppi esaustivi (ad esempio, uomini con un'istruzione universitaria tra 18-24 anni a Urban Texas).