In un'elezione, come possiamo dire con certezza che un candidato sarà il vincitore?


14

Ci sono state elezioni generali in cui vivo ieri e la rete televisiva ha iniziato a chiamare i vincitori molto prima dell'apertura di tutte le schede.

Sono risultati proprio su tutti i fronti, e non sono davvero sorpreso di averlo fatto. So che le statistiche sono assolutamente praticabili. Tuttavia, sono curioso. assumendo:

  • abbiamo aperto voti di j ;ij
  • abbiamo candidati i cui attuali punteggi sono c 1 , c 2 , c 3 , . . . c n ;nc1,c2,c3,...cn

Come possiamo calcolare la certezza con cui il candidato principale è il vincitore?


1
Tieni presente che in genere hanno accesso a dati di polling di uscita estesi e ad altri dati che possono utilizzare per prevedere il risultato. Hanno solo bisogno di una conferma sufficiente dal conteggio in entrata per assicurarsi che non siano fuori contrassegno a causa di un errore di campionamento. Ci sono certamente delle complessità coinvolte e i conteggi in entrata sono generalmente un campione parziale, ma i sondaggi di uscita fanno molto per aiutarli ad affrontare alcuni di questi problemi.
gung - Ripristina Monica

1
Se "con certezza" deve essere preso alla lettera, le statistiche non possono (quasi?) Mai rispondere a una domanda "con certezza". Ma possiamo dare risposte con un alto livello di fiducia che la risposta sarà corretta. (In altre parole, se otteniamo i nostri dati e facciamo le nostre analisi correttamente, possiamo dire cose come "La mia risposta sarà sbagliata solo circa il x% delle volte.")
Emil Friedman,

Risposte:


14

La principale difficoltà nella pratica non è l'incertezza statistica che una serie di fortuna avrebbe dato più voti a un candidato. La difficoltà principale, per un ordine di grandezza o più, è che i voti che sono stati aperti non sono quasi mai un campione imparziale dei voti espressi. Se si ignora questo effetto, si ottiene il famoso errore "Dewey Defeats Truman", che si è verificato con un campione distorto di grandi dimensioni.

In pratica, gli elettori che favoriscono un candidato rispetto a un altro non sono equamente distribuiti per regione, se lavorano durante il giorno o se sarebbero schierati all'estero, quindi voterebbero con votazioni per assente. Queste non sono piccole differenze.

Penso che ciò che le organizzazioni giornalistiche facciano ora sia di dividere la popolazione in gruppi e utilizzare i risultati per stimare il modo in cui ciascun gruppo ha votato (compresa l'affluenza alle urne). Questi possono essere basati su modelli e ipotesi precedenti basate su elezioni precedenti, non solo sui dati di queste elezioni. Questi potrebbero non tener conto di stranezze come il voto delle farfalle di Palm Beach.


3
In Australia fino a circa 10-15 anni fa, i partiti conservatori di solito iniziavano con forza all'inizio, con i partiti progressisti che tornavano tardi. Le reti televisive probabilmente sapevano cosa stava succedendo, ma la variabilità probabilmente ha reso più drammatico. Tutto è cambiato quando il nome di un analista Antony Green ha iniziato a utilizzare lo stand in base ai risultati dello stand per spiegare il fatto che i piccoli stand nelle aree rurali tendono a fare il conto e i risultati in anticipo, e tendono a votare in modo più prudente. Antony notoriamente ha giustamente definito un risultato elettorale ore prima che chiunque altro lo usasse.
Bogdanovist,

1
I risultati stand by booth degli anni precedenti possono essere utilizzati per calibrare in modo molto accurato le stime del risultato totale.
Peter Ellis,

@DouglasZare Penso che intendi dire che le schede attualmente aperte non sono un campione casuale.
Michael R. Chernick,

1
@Michael Chernick: Qual è la differenza tra un campione non casuale e un campione distorto? en.wikipedia.org/wiki/Sampling_bias sembra usarli come sinonimi.
Douglas Zare,

1
@DouglasZare Vedo dal tuo link che Wikipedia utilizza un campione distorto come sinonimo di non casuale. Penso che sia una cattiva scelta. La distorsione generale si riferisce all'aspettativa che uno stimatore non sia uguale al valore reale del parametro. Nel contesto del campionamento un campione non casuale non implica distorsioni per una stima particolare. Può o meno portare a pregiudizi.
Michael R. Chernick,

0

Nel campionamento dell'indagine è necessario l'errore standard della stima della proporzione. Dipende più da i che da j. Inoltre richiede che le schede elettorali aperte siano state selezionate a caso. Se p è la proporzione finale effettiva per il candidato A, la varianza della stima è

(1-ioj)p(1-p)io

La quantità (1-ioj)è chiamato fattore di correzione della popolazione finito. Per stimare questa varianza, la solita stima di p è sostituita da p nella formula. L'errore standard si ottiene prendendo la radice quadrata. Nel predire un vincitore, il sondaggista potrebbe usare la stima più o meno 3 errori standard. Se 0,5 non è contenuto nell'intervallo, il candidato A viene dichiarato vincitore se 0,5 è inferiore al limite inferiore o il suo avversario viene dichiarato vincitore se 0,5 è superiore al limite superiore. Naturalmente questo dice solo con la massima fiducia chi sarà il vincitore nel caso in cui 0,5 sia al di fuori dell'intervallo. Il livello di confidenza è 0,99 se vengono utilizzati tre errori standard (in base all'approssimazione normale al binomio). Se 0,5 è all'interno dell'intervallo nessuno viene dichiarato vincitore e il sondaggista attende che si accumulino più dati.

Nel fare una proiezione, i sondaggisti possono selezionare un campione casuale stratificato tra i voti accumulati per evitare potenziali pregiudizi che possono verificarsi se si guardano tutti i voti conteggiati. Il problema con l'esame di tutti i voti accumulati è che alcuni recinti completano il conto su altri e potrebbero non essere rappresentativi della popolazione.

L'articolo qui fornisce una buona copertura del problema e numerosi riferimenti.

È stato sottolineato che i voti accumulati possono fornire stime distorte delle proporzioni perché o i recinti che devono ancora essere segnalati sono recinti che tendono a favorire il partito con il candidato in coda o le votazioni assente probabilmente favoriranno il candidato che sta trascinando e quei voti vengono contati per ultimi. I sofisticati sondaggisti come Harris e Gallup non cadono in tali trappole. La semplice analisi della costruzione di intervalli di confidenza basati sui voti accumulati che ho delineato è solo uno dei fattori utilizzati. Questi sondaggisti hanno molte più informazioni a loro disposizione. Hanno sondaggi che sono stati presi poco prima delle elezioni e hanno i modelli di voto di tutti i recinti e voti assenti presi alle elezioni negli ultimi anni.

Quindi, se ci sono chiari pregiudizi che potrebbero far oscillare una stretta elezione nella direzione opposta, i sondaggisti lo riconosceranno e resisteranno proiettando un vincitore.

Negli Stati Uniti, le votazioni per gli assenti provengono principalmente dai militari oltremare e dagli studenti universitari che sono a scuola lontano da casa. Mentre i militari possono tendere ad essere più conservatori e probabilmente a votare repubblicani, gli studenti di collusione tendono ad essere più liberali e probabilmente a votare democratici. Tutte queste considerazioni sono prese in considerazione.

La cura e la raffinatezza dei moderni sondaggi è la ragione per cui da allora non si sono verificati gravi errori come il sondaggio di Literary Digest del 1936 o la prematura concessione del quotidiano di Chicago delle elezioni del 1948 a Dewey.


2
Sebbene l'analogia implicita con il campionamento del sondaggio sia appropriata, questa domanda non aggiunge fattori complicanti? La prima è la possibilità di oltre due candidati. Il secondo è che si tratta di un problema decisionale sequenziale : a differenza del sondaggista, che in genere specifica una dimensione del sondaggio e prende una decisione in base al campione, in ogni momento la rete ha un campione crescente e deve decidere se chiamare le elezioni o attendere maggiori informazioni. Le applicazioni di sondaggio qui citate non sembrano applicabili a questa situazione dinamica. E perché la rete dovrebbe usare 3 SE? (La sua reputazione è in gioco.)
whuber

1
@whuber Sono d'accordo che ci sono complicazioni che probabilmente non sono considerate nella pratica. Ho scelto per semplicità un caso a due candidati in cui la maggioranza è una vittoria. Penso che questa sia la situazione che l'OP aveva in mente. Vincere per pluralità con tre o più candidati significherebbe dimostrare che il "candidato vincitore aveva una proporzione più alta rispetto ai suoi avversari. Certamente se si fa il sondaggio più di una volta, si dovrebbe prendere in considerazione la natura sequenziale del campionamento. Non sono sicuro che lo è
Michael R. Chernick,

1
La mia scelta di 3 SE è stata perché penso che i sondaggisti vogliano essere "molto sicuri" che hanno ragione prima di dichiarare un vincitore. Quindi penso che 3 verrebbe usato su 2. Se vuoi un rischio di errore ancora più piccolo potresti andare più in alto di 3. Ho usato la formula per l'errore standard per dare all'OP un'idea di come il livello di certezza dipende da io e j in modo semplice. Complicare la situazione renderebbe il risultato più complicato e la dipendenza I e J non sarebbe così chiaramente vista.
Michael R. Chernick,

2
(1) È fondamentale notare che questo non è un sondaggio: sono le elezioni effettive ("ci sono state elezioni generali ..."). (2) Il riferimento a "n" invece di 2indica un interesse per le elezioni multi-candidato. (3) Un'altra complicazione critica mi viene in mente: in un'elezione, la "popolazione" è composta da tutti i voti. Prima che tutti siano aperti, la rete può solo stimare il numero di schede. Ciò non rende difficile (se non impossibile) applicare il fattore di correzione della popolazione finito?
whuber

3
Dato che sto ricevendo diversi voti negativi, qualcuno spiegherebbe la sua giustificazione?
Michael R. Chernick,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.