Puoi spiegare perché il legame statistico non viene ingiustamente rifiutato quando


12

Ho bisogno di aiuto per spiegare e citare testi statistici di base, documenti o altri riferimenti, perché è generalmente errato utilizzare la statistica del margine di errore (MOE) riportata nel sondaggio per dichiarare ingenuamente un legame statistico.

Un esempio: il candidato A guida il candidato B in un sondaggio, dal percento, con un margine di errore del per elettori intervistati.4,5 % 50039314.5%500

Il mio amico ragiona così:

A causa della complessità della modellistica statistica, il margine di errore indica che il vero supporto di A potrebbe essere basso fino al 34,5 percento e B potrebbe arrivare fino al 35,5 percento. Pertanto, A e B sono in realtà in un dead dead statistico.

Tutto l'aiuto è stato apprezzato per articolare chiaramente il difetto del ragionamento del mio amico. Ho provato a spiegare che è errato rifiutare ingenuamente l'ipotesi "A conduce B" se . pApB<2MOE


Per ulteriori discussioni in merito, compresi gli approcci per la combinazione corretta dei MOE, consultare stats.stackexchange.com/questions/18215 .
whuber

Risposte:


7

Il mio primo tentativo di risposta è stato imperfetto (vedi sotto per la risposta imperfetta). Il motivo per cui è imperfetto è che il margine di errore (MOE) riportato si applica alla percentuale di polling di un candidato ma non alla differenza delle percentuali. Il mio secondo tentativo affronta in modo esplicito la domanda posta dall'OP un po 'meglio.

Secondo tentativo

L'amico del PO ragiona come segue:

  1. Costruire l'intervallo di confidenza per il candidato A e il candidato B separatamente utilizzando il MOE specificato.
  2. Se si sovrappongono, abbiamo un ascolto statistico morto e se non lo fanno, allora A sta conducendo B.

Il problema principale qui è che il primo passo non è valido. Costruire intervalli di confidenza in modo indipendente per i due candidati non è un passo valido perché le percentuali di polling per i due candidati sono variabili casuali dipendenti. In altre parole, un elettore che decide di non votare per A può potenzialmente decidere di votare invece per B. Pertanto, il modo corretto per valutare se il lead è significativo o meno è costruire un intervallo di confidenza per la differenza. Vedi il wiki su come calcolare l'errore standard per la differenza delle percentuali di polling in alcune ipotesi.

Risposta imperfetta di seguito

A mio avviso, il modo "corretto" di pensare al risultato del sondaggio è il seguente:

In un sondaggio di 500 elettori, le probabilità che vedremo una differenza di piombo dell'8% è maggiore del 5%.

Il fatto che tu creda che "A porti B" o "A legami B" dipende quindi dalla misura in cui sei disposto ad accettare il 5% come criterio di esclusione.


@Srikvant. Supponiamo che il 5% sia un significato accettabile. Sto cercando una risposta più precisa, che esponga l'idea che "A conduce B" è una nuova statistica, la differenza di pA e pB e che il suo intervallo di confidenza corrispondente non è semplicemente 2 * MOE.

4

È più facile da spiegare in termini di deviazioni standard, piuttosto che intervalli di confidenza.

pA+pB=1pB=1pA

Var(pApB)=Var(2pA1)=4Var(pA)
SD(pApB)=2SD(pA).
pApB
Var(pApB)=Var(pA)+Var(pB)2Cov(pA,pB).

Al di fuori di questo semplice modello , se non in generale, è necessario tenere conto della correlazione tra e che non è inclusa nel margine di errore. È possibile per .p A p B S D ( p A - p B ) 2 S D ( p A )pA+pB=1pApBSD(pApB)2SD(pA)

Ma tutta questa sfumatura sembra indicare che le organizzazioni elettorali dovrebbero segnalare il margine di errore sulla differenza. Dov'è Nate Silver?


4

Non solo è un brutto modo di definire le cose, ma non è nemmeno un calore morto statistico.

In questo modo non usi intervalli di confidenza sovrapposti. Se davvero volevi solo dire che il candidato A avrebbe vinto, allora il candidato A è sicuramente in testa. Il vantaggio è dell'8% MOE 6,4%. L'intervallo di confidenza di quel punteggio di sottrazione non è il doppio dell'intervallo di confidenza dei singoli punteggi. Ciò è implicito sostenendo che la sovrapposizione di EC (± MOE) attorno a ciascuna stima è un calore morto. Supponendo che N sia uguale e varianza, il MOE della differenza è sqrt (2) volte 4,5. Questo perché trovare la differenza tra i valori raddoppierebbe solo la varianza (quadrato SD). L'intervallo di confidenza si basa su un sqrt della varianza, pertanto la combinazione di questi è la media (4.5) * sqrt (2). Poiché il MOE del tuo lead dell'8% è di circa il 6,4%, il candidato A è in testa.

A parte questo, i MOE sono molto conservativi e basati sul valore di scelta del 50%. La formula è sqrt (0,25 / n) * 2. Esiste una formula per il calcolo degli errori standard dei punteggi delle differenze che potremmo usare anche. Lo applicheremmo utilizzando i valori trovati anziché il valore soglia del 50% e ciò ci offre ancora un vantaggio significativo per il candidato A (MOE del 7,5%). Credo che, dato il commento degli interroganti e la vicinanza di quel taglio rispetto all'ipotetico selezionato, quello era probabilmente quello che stavano cercando.

Qualsiasi introduzione agli intervalli di confidenza e al potere sarebbe utile qui. Anche l'articolo di Wikipedia su MOE sembra abbastanza buono.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.