Intervalli di confidenza rispetto alle dimensioni del campione?


9

Sono totalmente nuovo alle statistiche e al campo degli intervalli di confidenza. Quindi questo potrebbe essere molto banale o addirittura sembrare stupido. Gradirei se potessi aiutarmi a capire o indicarmi un po 'di letteratura / testo / blog che spiega meglio questo.

Vedo su vari siti di notizie come CNN, notizie Fox, Politico ecc. Circa i loro sondaggi riguardanti la corsa presidenziale degli Stati Uniti 2012. Ogni agenzia conduce alcuni sondaggi e riporta alcune statistiche del modulo:

CNN: la popolarità di Obama è dell'X% con margine di errore +/- x1%. Dimensione del campione 600. FOX: la popolarità di Obama è Y% con margine di errore +/- y1%. Dimensione del campione 800. XYZ: la popolarità di Obama è dello Z% con margine di errore +/- z1%. La modella indossa la taglia 300.

Ecco i miei dubbi:

  1. Come faccio a decidere quale fidarmi? Dovrebbe essere basato sull'intervallo di confidenza, o dovrei supporre che dato che Fox ha una dimensione del campione maggiore, la sua stima è più affidabile? Esiste una relazione implicita tra i valori di confidenza e la dimensione del campione in modo tale che la specificazione di uno ovvia alla necessità di specificare l'altro?

  2. Posso determinare la deviazione standard dagli intervalli di confidenza? In tal caso, è sempre valido o valido solo per determinate distribuzioni (come Gaussian)?

  3. Esiste un modo per "unire" o "combinare" le tre stime precedenti e ottenere la mia stima con intervalli di confidenza? Quale dimensione del campione devo richiedere in quel caso?

Ho citato CNN / Fox solo per spiegare meglio il mio esempio. Non ho intenzione di iniziare un dibattito tra Democratici e Repubblicani qui.

Aiutatemi a capire i problemi che ho sollevato.

Risposte:


4

Oltre alla grande risposta di Peter, ecco alcune risposte alle tue domande specifiche:

  1. Chi si fiderà dipenderà anche da chi sta facendo il sondaggio e dallo sforzo che fanno per ottenere un sondaggio di buona qualità. Una dimensione del campione più grande non è migliore se il campione non è rappresentativo, prendendo un sondaggio enorme, ma solo in uno stato di non oscillazione non darebbe ottimi risultati.

    Esiste una relazione tra la dimensione del campione e la larghezza dell'intervallo di confidenza, ma altre cose influenzano anche la larghezza, ad esempio quanto la percentuale è vicina a 0, 1 o 0,5; quali aggiustamenti di polarizzazione sono stati utilizzati, come è stato prelevato il campione (raggruppamento, stratificazione, ecc.). La regola generale è che la larghezza dell'intervallo di confidenza sarà proporzionale a1n, quindi per dimezzare l'intervallo è necessario 4 volte la dimensione del campione.

  2. Se sai abbastanza su come è stato raccolto il campione e quale formula è stata utilizzata per calcolare l'intervallo, puoi risolvere la deviazione standard (devi anche conoscere il livello di confidenza utilizzato, di solito 0,05). Ma la formula è diversa per i campioni stratificati vs. cluster. Inoltre, la maggior parte dei sondaggi osserva le percentuali, quindi utilizzerebbe la distribuzione binomiale.

  3. Esistono modi per combinare le informazioni, ma in genere è necessario sapere qualcosa su come sono stati raccolti i campioni o essere disposti a formulare ipotesi su come sono stati costruiti gli intervalli. Un approccio bayesiano è un modo.


1
+1. Ma le prospettive per il n. 3 sono davvero così desolate o difficili? Se ho una raccolta di stime indipendenti, ognuna con il proprio margine di errore, perché non posso (almeno approssimativamente) combinarle nel modo consueto (come media ponderata, ponderata inversamente da MoE quadrati) e combinare i loro errori standard come bene (usando le formule di varianza)? Non sarebbe perfetto, ma dovrebbe essere meglio che scegliere un sondaggio su cui fare affidamento, giusto?
whuber

Grazie Greg! Apprezzo molto le tue risposte. Nella tua risposta alla domanda 3 hai affermato che "Un approccio bayesiano è a senso unico". Potresti indicarmi un po 'di letteratura che fornisce maggiori informazioni al riguardo?
Nik,

@whuber: grazie per il tuo commento. Questo è quello che stavo pensando di fare. Pensi che sia giustificato combinare queste stime in questo modo? Potrebbe non essere completamente, ma in larga misura?
Nik,

1
@whuber, non intendevo dipingerlo come cupo, solo per assicurarmi che il poster fosse a conoscenza e potesse vivere con i presupposti necessari.
Greg Snow,

@Nik, ci sono molti tutorial sul web per le statistiche bayesiane. Un approccio semplice (che presuppone che i campioni fossero tutti semplici campioni casuali o che il progetto dell'indagine fosse tale che l'assunto SRS non è lontano) sarebbe iniziare con un beta precedente, quindi utilizzare ogni sondaggio con una probabilità binomiale per aggiornare e ottenere un nuovo posteriore. Una cosa bella dell'approccio Bayes è che puoi scartare l'effetto degli studi precedenti se non vuoi che abbiano la stessa influenza del sondaggio più recente.
Greg Snow,

4

Questo è un argomento enorme, ma fondamentalmente ci sono due problemi:

1) Precisione - questo è determinato dalla dimensione del campione. Campioni più grandi forniscono stime più precise con errori standard inferiori e intervalli di confidenza più stretti

2) Bias - che, nelle statistiche, non ha necessariamente le connotazioni negative che ha altrove. Nei sondaggi, cercano di ottenere un campione casuale di XXXX (a volte probabili elettori, a volte elettori registrati). Ma non lo fanno. Alcuni sondaggi utilizzano solo linee di terra. Diversi gruppi di persone hanno più o meno probabilità di rispondere. Diversi gruppi hanno più o meno probabilità di riagganciare.

Quindi, tutti i sondaggisti valutano le loro risposte. Cioè, cercano di adattare i loro risultati per abbinare fatti noti sugli elettori. Ma lo fanno tutti in modo leggermente diverso. Quindi, anche con gli stessi dati di input di polling, forniranno numeri diversi.

Di chi fidarsi? Bene, se guardi il lavoro di Nate Silver su 538, ha valutazioni su quanto accurati i sondaggisti fossero nelle elezioni precedenti. Ma ciò non significa che saranno ugualmente precisi ora.


Grazie Peter. Quindi una stima con un margine di errore inferiore è più "precisa". C'è un modo per sapere anche quanto è distorto dal margine di errore solo X% +/- x1%? Immagino che non sia possibile a meno che tu non conosca le preferenze dei singoli campioni, giusto?
Nik,

Sì, è giusto. Certo, alcuni sondaggisti hanno pregiudizi noti (in una direzione o nell'altra). I sondaggi interni (gestiti da una parte o dall'altra) sono spesso di parte. Un modo in cui possono farlo è eseguendo diversi sondaggi e rilasciando solo quelli favorevoli. Poi c'è l'intera questione dei "sondaggi push" in cui le domande su un candidato sono precedute da domande negative su di lui o lei.
Peter Flom

1

Ciò rientra nell'area del campionamento del sondaggio. In linea di principio i metodi funzionano perché viene utilizzata la randomizzazione. Ecco le cose che possono differire nei sondaggi in base a decisioni soggettive.

  1. Cornice di campionamento. Da quale gruppo di elettori dovrei trarre il mio campione?

  2. Come posso gestire la volatilità dell'elettore indeciso che può cambiare la sua opinione su Obama vs Romney sulla base del sondaggio di ieri o delle prossime settimane?

  3. Peter ha toccato il pregiudizio. Il sondaggio letterario del 1936 fu un disastro. Ha scelto il candidato repubblicano per FDR perché il frame di campionamento era basato sulla selezione casuale di numeri di telefono. Nel 1936 solo l'alta borghesia e i ricchi avevano i telefoni. Quel gruppo era dominato da repubblicani che tendevano a votare per il candidato repubblicano. Roosevelt ha vinto da una frana ottenendo i suoi voti dai poveri e dalla classe media che tendeva ad essere molto un gruppo di democratici! Ciò illustra la distorsione dovuta alla scelta leggermente scarsa di un frame di campionamento.

  4. Il campionamento dei sondaggi si occupa di popolazioni limitate. La dimensione della popolazione è N. Supponiamo che un semplice campione casuale sia estratto da quella popolazione e abbia dimensione n. Per semplicità supponiamo che solo Obama e Romney stiano correndo. La percentuale di voti che Obama otterrebbe per questo frame di campionamento è una media di variabili binarie (diciamo 1 se l'intervistato sceglie Obama e 0 per Romney). La varianza della media del campione per questa variabile è [p (1-p) / n] [Nn] / N dove p è la vera proportina della popolazione che sceglierebbe Obama. [Nn] / N è la correzione della popolazione finita. nella maggior parte dei sondaggi N è molto più grande di N e il corretto può essere ignorato. Guardando p (1-p) / n vediamo che la varianza scende con n. Quindi, se n è grande, l'intervallo di confidenza a un dato livello di confidenza diminuirà.

I sondaggisti altri campionatori e statistici dell'indagine presso il Census Bureau degli Stati Uniti hanno tutti questi strumenti statistici a loro disposizione e fanno metodi più complessi e precisi (campionamento casuale cluster e campionamento casuale stratificato per menzionare un paio di metodi).

Quando i loro presupposti di modellazione sono validi, i metodi funzionano notevolmente bene. Il polling di uscita è un ottimo esempio. Il giorno delle elezioni vedrai le reti proiettare con precisione il vincitore in quasi tutti gli stati molto prima di un conteggio quasi finale. Questo perché la variabilità del giorno della preselezione è sparita. Sanno storicamente come le persone tendevano a votare e possono determinare i recinti selezionati in modo da evitare la distorsione. Le reti a volte differiscono. Ciò può essere dovuto a una competizione per scegliere il vincitore prima della mentalità altrui. In rari casi può anche essere dovuto al fatto che il voto è estremamente vicino (ad esempio, elezioni presidenziali del 2000 in Florida).

Spero che questo ti dia un quadro più chiaro di ciò che accade. Non vediamo più errori grossolani come "Dewey sconfigge Truman" nel 1948 o il fiasco di Literary Digest del 1936. Ma le statistiche non sono perfette e gli statistici non possono mai dire di esserne certi.


Grazie per la spiegazione dettagliata. Questo mi ha davvero aiutato!
Nik,

Non vediamo più errori grossolani? Quindi Clinton ha vinto nel 2016, vero? Prendo le tue incognite conosciute e ti allevo un cigno nero . Come diceva mio padre, "È quello che non sai che ti uccide".
Carl,

1
La mia risposta non aveva nulla a che fare con Clinton e le elezioni del 2016 che avevano molti strani problemi. (1) intervento russo, (2) Clinton ha vinto il voto popolare e (3) alcuni elettori di Trump erano reticenti nell'ammettere che avrebbero votato per Trump. Forse dovrei aggiungere che i sondaggi possono essere sbagliati quando l'affluenza alle urne non è quella che ci si aspettava.
Michael R. Chernick,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.