Come possiamo giudicare l'accuratezza delle previsioni di Nate Silver?


19

In primo luogo, dà probabilità di esiti. Quindi, ad esempio, le sue previsioni per le elezioni statunitensi sono attualmente dell'82% di Clinton contro il 18% di Trump.

Ora, anche se Trump vince, come faccio a sapere che non era solo il 18% delle volte che avrebbe dovuto vincere?

L'altro problema è che le sue probabilità cambiano nel tempo. Quindi, il 31 luglio, è stato quasi un 50-50 tra Trump e Clinton.

La mia domanda è, dato che ogni giorno ha una probabilità diversa per lo stesso evento futuro con lo stesso risultato, come posso misurare la precisione con cui ogni giorno ha fatto una previsione basata sulle informazioni disponibili fino a quel giorno?


1
Ho il sospetto che non possiamo. È necessario uno standard aureo per effettuare tale valutazione, e la migliore che abbiamo sono solo le osservazioni delle precedenti elezioni che sono difficili da confrontare (poiché ogni elezione includerebbe metodi alternativi di campionamento e comportamento degli elettori). Ma non sono un esperto di sondaggi elettorali, quindi lo lascio come commento e non come risposta :)
Tal Galili

2
@TalGalili: possiamo dire almeno qualcosa, usando le regole del punteggio - così come, ad esempio, possiamo dire qualcosa sui parametri non osservabili che stimiamo nelle regressioni.
S. Kolassa - Ripristina Monica l'

Questa è probabilmente una "regola di punteggio", ma, per n eventi, moltiplica la sua probabilità per quegli eventi che si verificano e prende l'ennesima radice per ottenere una sorta di tasso di previsione medio (supponiamo che non faccia mai previsioni dello 0%). Puoi considerare ogni probabilità giornaliera come una previsione separata.
Barrycarter,

Perché le probabilità non possono cambiare nel tempo? In un evento sportivo, le probabilità non cambiano ogni volta che viene segnato un goal o viene eseguita una corsa in casa?
Rodrigo de Azevedo,

8
Il modello di Silver offre molto più di una semplice stima della probabilità: fornisce un margine di vittoria stimato, che deriva dalle probabilità di vittoria e dai margini di vittoria per ciascuno dei 50 stati. Quindi fornisce una stima puntuale e un margine di errore per 50 diverse misurazioni (anche se con alcuni - probabilmente alto - grado di correlazione tra loro), non solo per prevedere un singolo risultato binario.
Michea

Risposte:


14

Le previsioni probabilistiche (o, come sono anche note, le previsioni di densità) possono essere valutate usando le , ovvero funzioni che mappano una previsione di densità e un risultato osservato a un cosiddetto punteggio, che è ridotto al minimo nell'aspettativa se la previsione di densità infatti è la vera densità da prevedere. Le regole di punteggio corrette sono regole di punteggio che sono minimizzate nelle aspettative solo dalla vera densità futura.

Ci sono un certo numero di tali regole di punteggio disponibili, a partire da Brier (1950, Monthly Weather Review ) nel contesto delle previsioni meteorologiche probabilistiche. Czado et al. (2009, Biometria ) offrono una panoramica più recente per il caso discreto. Gneiting & Katzfuss (2014, Annual Review of Statistics e la sua applicazione ) offrono una panoramica delle previsioni probabilistiche in generale - La gneiting in particolare è stata molto attiva nel far progredire la causa delle regole di punteggio adeguate.

Tuttavia, le regole di punteggio sono in qualche modo difficili da interpretare e aiutano davvero solo a confrontare più previsioni probabilistiche - quella con il punteggio più basso è migliore. Fino alla variazione del campionamento, cioè, quindi è sempre meglio avere un sacco di previsioni da valutare, di cui faremo la media dei punteggi.

Come includere l '"aggiornamento" delle previsioni di Silver o di altri è una buona domanda. Possiamo usare le regole di punteggio per confrontare "istantanee" di diverse previsioni in un singolo punto nel tempo, oppure possiamo anche guardare le previsioni probabilistiche di Silver nel tempo e calcolare i punteggi in ogni momento. Si spera che il punteggio diventi sempre più basso (ovvero, le previsioni sulla densità migliorano sempre di più) più il risultato effettivo è vicino.


5
Un altro modo per dirlo: la probabilità prevista individuale di un evento unico non può essere valutata da sola, ma i meteorologi possono essere valutati (mediante funzioni di punteggio).
kjetil b halvorsen,

1
Perché "è minimizzato nelle aspettative", penso che il problema chiave sia l'aspettativa su quale ensemble? Prendiamo tutte le previsioni di Nate Silver? Solo quelli per le elezioni presidenziali? Non so se c'è una sola risposta qui. Per confrontare diversi meteorologi, le previsioni su qualsiasi insieme comune di eventi potrebbero essere ragionevoli.
GeoMatt22,

@ GeoMatt22 - ha una metodologia abbastanza simile per altre elezioni, quindi potrebbe essere valido aggregare tutte le previsioni elettorali
DVK

11

Nel libro di Nate Silver The Signal and the Noise di scrive quanto segue, che può fornire alcuni spunti per la tua domanda:

Uno dei test più importanti di una previsione - direi che è il singolo più importante - si chiama calibrazione. Di tutte le volte che hai detto che c'era una probabilità del 40% di pioggia, con che frequenza si è verificata la pioggia? Se, a lungo termine, ha davvero piovuto circa il 40% delle volte, ciò significa che le tue previsioni erano ben calibrate. Se invece ha finito per piovere solo il 20 percento delle volte, o il 60 percento delle volte, non lo erano.

Quindi questo solleva alcuni punti. Prima di tutto, come giustamente fai notare, non puoi davvero fare alcuna deduzione sulla qualità di una singola previsione dal risultato dell'evento che stai prevedendo. Il meglio che puoi fare è vedere come si comporta il tuo modello nel corso di molte previsioni.

Un'altra cosa a cui è importante pensare è che le previsioni fornite da Nate Silver non sono un evento in sé, ma la distribuzione della probabilità dell'evento. Quindi, nel caso della corsa presidenziale, sta valutando la distribuzione di probabilità di Clinton, Trump o Johnson che vincono la gara. Quindi in questo caso sta valutando una distribuzione multinomiale.

Ma in realtà sta predicendo la gara a un livello molto più granulare. Le sue previsioni stimano le distribuzioni di probabilità della percentuale di voti che ciascun candidato otterrà in ogni stato. Quindi, se consideriamo 3 candidati, questo potrebbe essere caratterizzato da un vettore casuale di lunghezza 51 * 3 e prendendo valori nell'intervallo [0, 1], soggetto al vincolo che le proporzioni sommano a 1 per le proporzioni all'interno di uno stato. Il numero 51 è perché altri sono 50 stati + DC (e in effetti penso che in realtà siano pochi di più perché alcuni stati possono dividere i loro voti al college elettorale), e il numero 3 è dovuto al numero di candidati.

Ora non hai molti dati con cui valutare le sue previsioni - ha fornito previsioni solo per le ultime 3 elezioni di cui sono a conoscenza (c'era altro?). Quindi non penso che ci sia modo di valutare equamente il suo modello, a meno che tu non abbia effettivamente il modello in mano e non sia in grado di valutarlo utilizzando dati simulati. Ma ci sono ancora alcune cose interessanti che potresti guardare. Ad esempio, penso che sarebbe interessante vedere con quale precisione prevedeva le proporzioni di voto stato per stato in un determinato momento, ad esempio una settimana fuori dalle elezioni. Se lo ripeti per più punti temporali, ad esempio una settimana fuori, un mese fuori, 6 mesi fuori e un anno fuori, allora potresti fornire un'esposizione piuttosto interessante per le sue previsioni. Un avvertimento importante: i risultati sono altamente correlati tra gli stati all'interno di un'elezione, quindi non si può davvero dire di avere 51 stati * 3 istanze di previsione indipendenti dalle elezioni (cioè se il modello sottovaluta le prestazioni dei candidati in uno stato, tenderà a sottostimare anche in altri stati) . Ma forse ci penserei comunque in questo modo solo per avere abbastanza dati per fare qualcosa di significativo.


4

Per ogni singola previsione che non puoi, non più di quanto possiamo dire se l'affermazione "questa moneta ha una probabilità del 60% di salire in testa" è prossima alla correzione da un singolo lancio.

Tuttavia, puoi valutare la sua metodologia in base a molte previsioni: per una determinata elezione fa molte previsioni, non solo della corsa presidenziale in generale, ma molte previsioni relative al voto per il presidente e di molte altre razze (casa, senato, gubnertorial e così via), e nel tempo utilizza metodologie sostanzialmente simili.

Esistono molti modi per eseguire questa valutazione (alcuni abbastanza sofisticati), ma possiamo esaminare alcuni modi relativamente semplici per capirne il senso. Ad esempio, è possibile dividere le previsioni della probabilità di una vincita in bande di esempio (50-55%, 55-65% e così via) e quindi vedere quale percentuale delle previsioni in quella banda è emersa; la percentuale di previsioni del 50-55% che ha funzionato dovrebbe essere compresa tra il 50-55% a seconda di dove fosse la media (più un margine per la variazione casuale *).

Quindi, con quell'approccio (o vari altri approcci) puoi vedere se la distribuzione dei risultati era coerente con le previsioni in un'elezione o attraverso diverse elezioni (se ricordo bene, penso che le sue previsioni siano state più spesso giuste di quanto avrebbero dovuto essere , il che suggerisce che i suoi errori standard sono stati in media leggermente sopravvalutati).

* dobbiamo stare attenti a come valutarlo, anche se le previsioni non sono indipendenti.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.