Combinazione di probabilità / informazioni da fonti diverse


26

Diciamo che ho tre fonti indipendenti e ognuna di esse fa previsioni per il tempo domani. Il primo dice che la probabilità di pioggia domani è 0, quindi il secondo dice che la probabilità è 1, e infine l'ultimo dice che la probabilità è del 50%. Vorrei sapere la probabilità totale data quell'informazione.

Se applico il teorema di moltiplicazione per eventi indipendenti ottengo 0, che non sembra corretto. Perché non è possibile moltiplicare tutti e tre se tutte le fonti sono indipendenti? Esiste un modo bayesiano per aggiornare il precedente quando ricevo nuove informazioni?

Nota: questo non è un compito, è qualcosa a cui stavo pensando.


1
Sai quanto sono affidabili le fonti indipendenti
Dilip Sarwate,

No, a priori presumo che tutte le fonti siano ugualmente affidabili.
Biela Diela,

3
Anche questa è una buona domanda a cui sto pensando. Aggiungerei una seconda domanda: se tutte le previsioni fossero 0,75, quale sarebbe la probabilità combinata? Superiore a 0,75? Quale sarebbe un quadro formale per l'analisi di questo tipo di domande?
Karsten W.,

2
Non ci sono abbastanza informazioni; abbiamo bisogno di un modello di come ci si aspetta che le previsioni siano correlate alla realtà.
Glen_b

Non sono del tutto sicuro di cosa si intenda per "tutte le fonti sono ugualmente affidabili" quando le fonti forniscono dichiarazioni riguardanti le probabilità o i livelli di fiducia / fiducia. Se stiamo parlando della probabilità che una certa probabilità abbia un dato valore che sembra sollevare problemi concettuali. A proposito, se le fonti 1 e 2 sono ugualmente affidabili, entrambe devono avere ragione con probabilità 0,50 ... (e la probabilità di pioggia è 1/2).
AG,

Risposte:


32

Ti chiedi tre cose: (a) come combinare diverse previsioni per ottenere una previsione unica, (b) se l'approccio bayesiano può essere usato qui, e (c) come gestire le probabilità zero.

La combinazione di previsioni è una pratica comune . Se si dispone di più previsioni rispetto alla media di tali previsioni, la previsione combinata risultante dovrebbe essere migliore in termini di accuratezza rispetto a ciascuna delle singole previsioni. Per valutarli in media è possibile utilizzare la media ponderata in cui i pesi si basano su errori inversi (ovvero precisione) o sul contenuto delle informazioni . Se si avesse conoscenza sull'affidabilità di ciascuna fonte, è possibile assegnare pesi proporzionali all'affidabilità di ciascuna fonte, quindi fonti più affidabili hanno un impatto maggiore sulla previsione combinata finale. Nel tuo caso non hai alcuna conoscenza della loro affidabilità, quindi ognuna delle previsioni ha lo stesso peso e quindi puoi usare la media aritmetica semplice delle tre previsioni

0%×.33+50%×.33+100%×.33=(0%+50%+100%)/3=50%

Come è stato suggerito nei commenti di @AndyW e @ArthurB. , sono disponibili altri metodi oltre alla media ponderata semplice. Molti di questi metodi sono descritti in letteratura sulle previsioni degli esperti della media, che non conoscevo prima, quindi grazie ragazzi. Nella media delle previsioni degli esperti a volte vogliamo correggere il fatto che gli esperti tendono a regredire alla media (Baron et al, 2013) o a rendere le loro previsioni più estreme (Ariely et al, 2000; Erev et al, 1994). Per raggiungere questo obiettivo, è possibile utilizzare le trasformazioni delle singole previsioni , ad esempio la funzione logitpi

(1)logit(pi)=log(pi1pi)

probabilità al potenza -esimoa

(2)g(pi)=(pi1pi)a

dove , o più trasformazione generale della forma0<a<1

(3)t(pi)=piapia+(1pi)a

dove se non viene applicata alcuna trasformazione, se singole previsioni sono rese più estreme, se previsioni sono rese meno estreme, ciò che è mostrato nella figura sotto (vedi Karmarkar, 1978; Baron et al, 2013 ).a > 1 0 < a < 1a=1a>10<a<1

inserisci qui la descrizione dell'immagine

Dopo che tali previsioni di trasformazione sono state mediate (usando media aritmetica, mediana, media ponderata o altro metodo). Se sono state utilizzate equazioni (1) o (2), i risultati devono essere retro-trasformati utilizzando logit inverso per (1) e probabilità inverse per (2). In alternativa, è possibile utilizzare la media geometrica (vedi Genest e Zidek, 1986; cfr. Dietrich and List, 2014)

(4)p^=i=1Npiwii=1Npiwi+i=1N(1pi)wi

o approccio proposto da Satopää et al (2014)

(5)p^=[i=1N(pi1pi)wi]a1+[i=1N(pi1pi)wi]a

dove sono pesi. Nella maggior parte dei casi vengono utilizzati pesi uguali meno che non esistano informazioni a priori che suggeriscano che esiste altra scelta. Tali metodi sono utilizzati nella media delle previsioni degli esperti in modo da correggere la fiducia insufficiente o eccessiva. In altri casi è necessario considerare se la trasformazione di previsioni in più o meno estreme è giustificata poiché può far sì che la stima aggregata risultante cada fuori dai confini contrassegnati dalla previsione individuale più bassa e più grande.w i = 1 / Nwiwi=1/N

Se hai una conoscenza a priori sulla probabilità della pioggia, puoi applicare il teorema di Bayes per aggiornare le previsioni data la probabilità a priori della pioggia in modo simile a quanto descritto qui . Esiste anche un approccio semplice che potrebbe essere applicato, ovvero calcolare la media ponderata delle previsioni (come descritto sopra) in cui la probabilità precedente viene trattata come punto dati aggiuntivo con un certo peso prespecificato come in questo esempio IMDB ( vedi anche fonte , o qui e qui per la discussione; cfr. Genest e Schervish, 1985), vale a dire π w πpiπwπ

(6)p^=(i=1Npiwi)+πwπ(i=1Nwi)+wπ

Dalla tua domanda, tuttavia, non ne consegue che tu abbia una conoscenza a priori del tuo problema, quindi probabilmente userai l'uniforme prima, cioè assumerai a priori una probabilità del di pioggia e questo non cambia molto nel caso dell'esempio che hai fornito .50%

Per gestire gli zeri, ci sono diversi approcci possibili. Innanzitutto dovresti notare che lo probabilità di pioggia non è un valore davvero affidabile, dal momento che dice che è impossibile che pioverà. Problemi simili si verificano spesso nell'elaborazione del linguaggio naturale quando nei dati non si osservano alcuni valori che possono eventualmente verificarsi (ad es. Si contano le frequenze delle lettere e nei dati non si verificano affatto lettere non comuni). In questo caso lo stimatore classico per probabilità, cioè0%

pi=niini

dove è un numero di occorrenze del valore (di categorie ), ti dà se . Questo si chiama problema a frequenza zero . Per tali valori sai che la loro probabilità è diversa da zero (esistono!), Quindi questa stima è ovviamente errata. C'è anche una preoccupazione pratica: la moltiplicazione e la divisione per zeri porta a zeri o risultati indefiniti, quindi gli zeri sono problematici nella gestione. i d p i = 0 n i = 0niidpi=0ni=0

La soluzione semplice e comunemente applicata è aggiungere una costante ai tuoi conteggi, in modo cheβ

pi=ni+β(ini)+dβ

La scelta comune per è , vale a dire applicare un precedente uniforme basato sulla regola di successione di Laplace , per la stima di Krichevsky-Trofimov o per lo stimatore di Schurmann-Grassberger (1996). Si noti tuttavia che ciò che si fa qui è applicare informazioni fuori dai dati (precedenti) nel modello, in modo da ottenere un sapore bayesiano soggettivo. Con questo approccio devi ricordare le ipotesi che hai fatto e prenderle in considerazione. Il fatto che abbiamo una forte conoscenza a priori che non ci dovrebbero essere zero probabilità nei nostri dati giustifica direttamente l'approccio bayesiano qui. Nel tuo caso non hai frequenze ma probabilità, quindi ne aggiungeresti alcuneβ11/21/dvalore molto piccolo in modo da correggere gli zeri. Si noti tuttavia che in alcuni casi questo approccio può avere conseguenze negative (ad es. Quando si tratta di registri ), quindi dovrebbe essere usato con cautela.


Schurmann, T. e P. Grassberger. (1996). Stima entropica delle sequenze di simboli. Caos, 6, 41-427.

Ariely, D., Tung Au, W., Bender, RH, Budescu, DV, Dietz, CB, Gu, H., Wallsten, TS e Zauberman, G. (2000). Gli effetti della media delle stime di probabilità soggettive tra e all'interno dei giudici. Journal of Experimental Psychology: Applied, 6 (2), 130.

Baron, J., Mellers, BA, Tetlock, PE, Stone, E. e Ungar, LH (2014). Due motivi per rendere le previsioni di probabilità aggregate più estreme. Analisi decisionale, 11 (2), 133-145.

Erev, I., Wallsten, TS e Budescu, DV (1994). Sovraconfidenza e sottocompressione simultanee: il ruolo dell'errore nei processi di giudizio. Revisione psicologica, 101 (3), 519.

Karmarkar, USA (1978). Utilità soggettivamente ponderata: un'estensione descrittiva del modello di utilità previsto. Comportamento organizzativo e prestazione umana, 21 (1), 61-72.

Turner, BM, Steyvers, M., Merkle, EC, Budescu, DV e Wallsten, TS (2014). Aggregazione delle previsioni tramite ricalibrazione. Apprendimento automatico, 95 (3), 261-289.

Genest, C. e Zidek, JV (1986). Combinazione di distribuzioni di probabilità: una critica e una bibliografia annotata. Statistical Science, 1 , 114–135.

Satopää, VA, Baron, J., Foster, DP, Mellers, BA, Tetlock, PE e Ungar, LH (2014). Combinazione di più previsioni di probabilità utilizzando un modello logit semplice. International Journal of Forecasting, 30 (2), 344-356.

Genest, C. e Schervish, MJ (1985). Modellazione di giudizi di esperti per l'aggiornamento bayesiano. The Annals of Statistics , 1198-1212.

Dietrich, F., and List, C. (2014). Pool di opinioni probabilistiche. (Inedito)


2
Volevo aggiungere a questo piuttosto che iniziare una nuova risposta. Un altro metodo ben noto è quello di combinare le tre (o N) probabilità prendendo la loro media geometrica (piuttosto che la loro media aritmetica). Hinton sottolinea che questo dà a un modello con una probabilità molto alta o bassa, il potere di "veto" tra gli altri, piuttosto che fare la media di tutto ciò che a volte può funzionare contro di te.
Zhubarb,

Quindi, se le tre previsioni fossero tutte del 75% e non fossero disponibili informazioni sulla loro affidabilità, la previsione finale sarebbe del 75%?
Karsten W.,

@KarstenW. si, perché dovresti aspettarti qualcosa di diverso? Se non hai informazioni a priori, queste sono le uniche informazioni che hai, quindi non hai motivo di considerare diverso il risultato finale ...
Tim

1
Non ho letto nessuno dei documenti accademici di Tetlock, ma vorrei iniziare da lì. Come due motivi per rendere le previsioni di probabilità aggregate più estreme . Cercherò l'esatta dicitura di Phil, potrei ricordare male la parola estremizzare .
Andy W,

1
Ero vicino a estremizzato , ma non del tutto. Avrei dovuto usare estremizzato , vedi qui . Oltre al Barone et al. articolo citato, vedo Ville Satopää ha alcuni lavori sull'argomento arxiv.org/abs/1506.06405 .
Andy W,

6

Esistono due modi per pensare al problema. Si deve dire che le fonti osservano una versione rumorosa della variabile latente "pioverà / non pioverà".

Betun'(un'+B,un')Beta(a,a+b)

axyz

p=11+(1x1)b(1y1)b(1z1)b

bb>1b<1b=1

p1p=x1xy1yz1z

10

Questo modello funziona meglio se stai pensando a tre persone che ti dicono se ha piovuto o meno ieri. In pratica, sappiamo che esiste una componente casuale irriducibile nel tempo, e quindi potrebbe essere meglio presumere che la natura prima raccolga una probabilità di pioggia, che viene osservata rumorosamente dalle fonti, quindi lancia una moneta distorta per decidere se o non pioverà.

In tal caso, la stima combinata sembrerebbe molto più simile a una media tra le diverse stime.


Cosa sarebbe x, y, z in questo modello?
Karsten W.

Sarebbero le tre diverse previsioni.
Arthur B.

x=y=z=34p=2728342728

Andare dal 3/4 al 27/28 è un po 'estremo, è come se tre persone ti stessero dicendo che il cielo è blu scuro e hai concluso che è nero ...
Tim

Dipende dal modello. Qui suppongo che ogni sorgente abbia una vista rumorosa su una variabile binaria latente, pioggia o niente pioggia. È più come se tre persone diverse ti hanno detto che ha piovuto ieri. È anche possibile modellare il sistema in quanto vi è una probabilità latente di pioggia e le fonti di previsione ottengono una versione rumorosa di tale previsione.
Arthur B.

3

Nel quadro del modello di credibilità trasferibile (TBM) , è possibile combinare diverse previsioni usando ad esempio la "regola congiuntiva della combinazione". Per applicare questa regola, è necessario trasformare le probabilità delle previsioni in assegnazioni di credenze di base. Ciò può essere ottenuto con il cosiddetto principio del minimo impegno. In R:

library(ibelief)
#probabilities
p1 <- c(0.99, 0.01) # bad results for 0 and 1
p2 <- c(0.01, 0.99)
p3 <- c(0.5, 0.5)

# basic belief assignment, 
# each row represents a subset of (rain, not rain)
# each column represents one prediction
Mat <- LCPrincple(rbind(p1,p2,p3))

# combine beliefs
m <- DST(Mat, 1)

# resulting probability distribution (pignistic probability)
mtobetp(m)
# returns 0.5 and 0.5

Per il secondo esempio di tre previsioni indipendenti di 0,75, questo approccio restituisce un valore più elevato:

p4 <- c(0.75, 0.25)
Mat <- LCPrincple(rbind(p4,p4,p4))
m <- DST(Mat, 1)
mtobetp(m)
#returns 0.9375 0.0625

Questo non è molto lontano dall'approccio bayesiano mostrato nella risposta di Arthur B.


2

w1=σ22σ32σ12σ22+σ12σ32+σ22σ32, w2=σ12σ32σ12σ22+σ12σ32+σ22σ32, w3=σ12σ22σ12σ22+σ12σ32+σ22σ32.

13

σiσ12:σ22:σ32=1:2:4,

f=814(0)+414(1)+214(0.5)=0.3571

1

I loro numeri per la probabilità di pioggia sono solo metà della storia, poiché dovremmo temperare le loro previsioni con la probabilità che siano accurate quando fanno ipotesi.

Poiché qualcosa come la pioggia si escludono a vicenda (o piove o non lo è, in questa configurazione), non possono essere tutti corretti simultaneamente con una probabilità del 75% come suggerito Karsten (penso, difficile da dire con la confusione che sento dire cosa significhi per trovare "probabilità combinata").

Prendendo in considerazione le loro capacità individuali di prevedere il tempo, potremmo prendere un colpo (a la Thomas Bayes, come in un colpo generalmente cieco nel buio) su quale sia la possibilità della pioggia domani.

La stazione 1 è corretta nelle loro previsioni il 60% delle volte, il secondo 30% delle volte e l'ultima stazione un povero il 10% delle volte.

E [pioggia] = Px X + Py Y + Pz * Z è la forma che stiamo guardando qui:

(.6) (0) + (. 3) (1) + (. 1) (. 5) = E [pioggia] = 35% possibilità di pioggia con precisioni inventate.


1
Questo algoritmo può produrre valori superiori a 1.
Andy W

1

Ci sono molte risposte complicate fornite a questa domanda, ma per quanto riguarda la media ponderata della varianza inversa: https://en.wikipedia.org/wiki/Inverse-variance_weighting

Invece di n misurazioni ripetute con uno strumento, se lo sperimentatore effettua n della stessa quantità con n strumenti diversi con qualità delle misurazioni variabile ...

Ogni variabile casuale è ponderata in proporzione inversa alla sua varianza.

La media ponderata della varianza inversa sembra molto semplice da calcolare e come bonus ha la minima varianza tra tutte le medie ponderate.


-1

Per combinare l'affidabilità, la mia formula go-to è r1xr2xr3 ÷ (r1xr2xr3 + (1-r1) x (1-r2) x (1-r3). Quindi per le 3 fonti di affidabilità del 75% che dicono tutte la stessa cosa, avrei .75 ^ 3 ÷ (.75 ​​^ 3 + .25 ^ 3) => 96% di affidabilità della risposta combinata


1
Questa non sembra essere una risposta adeguata alla domanda.
Michael R. Chernick,

Certo, era più una risposta ai commenti di KarstenW che una risposta diretta alla domanda.
user3902302
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.