Nel libro di Nate Silver The Signal and the Noise di scrive quanto segue, che può fornire alcuni spunti per la tua domanda:
Uno dei test più importanti di una previsione - direi che è il singolo più importante - si chiama calibrazione. Di tutte le volte che hai detto che c'era una probabilità del 40% di pioggia, con che frequenza si è verificata la pioggia? Se, a lungo termine, ha davvero piovuto circa il 40% delle volte, ciò significa che le tue previsioni erano ben calibrate. Se invece ha finito per piovere solo il 20 percento delle volte, o il 60 percento delle volte, non lo erano.
Quindi questo solleva alcuni punti. Prima di tutto, come giustamente fai notare, non puoi davvero fare alcuna deduzione sulla qualità di una singola previsione dal risultato dell'evento che stai prevedendo. Il meglio che puoi fare è vedere come si comporta il tuo modello nel corso di molte previsioni.
Un'altra cosa a cui è importante pensare è che le previsioni fornite da Nate Silver non sono un evento in sé, ma la distribuzione della probabilità dell'evento. Quindi, nel caso della corsa presidenziale, sta valutando la distribuzione di probabilità di Clinton, Trump o Johnson che vincono la gara. Quindi in questo caso sta valutando una distribuzione multinomiale.
Ma in realtà sta predicendo la gara a un livello molto più granulare. Le sue previsioni stimano le distribuzioni di probabilità della percentuale di voti che ciascun candidato otterrà in ogni stato. Quindi, se consideriamo 3 candidati, questo potrebbe essere caratterizzato da un vettore casuale di lunghezza 51 * 3 e prendendo valori nell'intervallo [0, 1], soggetto al vincolo che le proporzioni sommano a 1 per le proporzioni all'interno di uno stato. Il numero 51 è perché altri sono 50 stati + DC (e in effetti penso che in realtà siano pochi di più perché alcuni stati possono dividere i loro voti al college elettorale), e il numero 3 è dovuto al numero di candidati.
Ora non hai molti dati con cui valutare le sue previsioni - ha fornito previsioni solo per le ultime 3 elezioni di cui sono a conoscenza (c'era altro?). Quindi non penso che ci sia modo di valutare equamente il suo modello, a meno che tu non abbia effettivamente il modello in mano e non sia in grado di valutarlo utilizzando dati simulati. Ma ci sono ancora alcune cose interessanti che potresti guardare. Ad esempio, penso che sarebbe interessante vedere con quale precisione prevedeva le proporzioni di voto stato per stato in un determinato momento, ad esempio una settimana fuori dalle elezioni. Se lo ripeti per più punti temporali, ad esempio una settimana fuori, un mese fuori, 6 mesi fuori e un anno fuori, allora potresti fornire un'esposizione piuttosto interessante per le sue previsioni. Un avvertimento importante: i risultati sono altamente correlati tra gli stati all'interno di un'elezione, quindi non si può davvero dire di avere 51 stati * 3 istanze di previsione indipendenti dalle elezioni (cioè se il modello sottovaluta le prestazioni dei candidati in uno stato, tenderà a sottostimare anche in altri stati) . Ma forse ci penserei comunque in questo modo solo per avere abbastanza dati per fare qualcosa di significativo.