Rilevamento del punto di cambio online bayesiano (distribuzione predittiva marginale)


9

Sto leggendo il documento di rilevazione del punto di cambio online bayesiano di Adams e MacKay ( link ).

Gli autori iniziano scrivendo la distribuzione predittiva marginale: dove

P(xt+1|x1:t)=rtP(xt+1|rt,xt(r))P(rt|x1:t)(1)
  • è l'osservazione al tempo t ;xtt
  • indica l'insieme di osservazioni fino al tempot;x1:tt
  • è la lunghezza corrente corrente (tempo dall'ultimo punto di cambio, può essere 0); ertN
  • è l'insieme di osservazioni associate alla corsa r t .xt(r)rt

Eq. 1 è formalmente corretto (vedere la risposta di seguito da @JuhoKokkala), ma la mia comprensione è che se si desidera effettivamente fare una previsione su è necessario espanderlo come segue:xt+1

P(xt+1|x1:t)=rt,rt+1P(xt+1|rt+1,xt(r))P(rt|x1:t)P(rt+1|rt)(1b)

Il mio ragionamento è che potrebbe esserci un punto di cambio nel tempo (futuro) , ma il P posteriore ( r t | x 1 : t ) copre solo fino a t .t+1P(rt|x1:t)t

Il punto è che gli autori nel documento ci fanno dell'Eq. 1 com'è (vedere Eq. 3 e 11 nel documento), e non 1b. Quindi, apparentemente ignorano la possibilità di un punto di cambio nel tempo quando prevedono x t + 1 dai dati disponibili al tempo t . All'inizio della Sezione 2 dicono en passantt+1xt+1t

Partiamo dal presupposto che possiamo calcolare la distribuzione predittiva [per ] in base a una determinata lunghezza della corsa r t .xt+1rt

che forse è dove sta il trucco. Ma in generale, questa distribuzione predittiva dovrebbe assomigliare all'Eq. 1b; che non è quello che fanno (Eq. 11).

Quindi, non sono sicuro di capire cosa sta succedendo. Forse c'è qualcosa di divertente nella notazione.


Riferimento

  • Adams, RP e MacKay, DJ (2007). Rilevamento del punto di cambio online bayesiano. arXiv prestampa arXiv: 0710.3742.

Una potenziale spiegazione è che rappresenta la lunghezza della corsa alla fine del passo t , che è dopo il punto di cambio nel tempo t . Con questo, l'Eq. 1 ha senso. Infatti, uno inizializzazione dell'algoritmo è impostando P ( r 0 = 0 ) = 1 che presuppone che esista un diritto Changepoint prima dell'inizio a t = 1 . Tuttavia, la Figura 1 è errata (o almeno fuorviante) in quanto se c'è un punto di cambio tra t = 4 et t = 5 , e trartttP(r0=0)=1t=1t=4t=5 e t = 11 come illustrato in figura 1A, quindi r 4 e R 10 deve essere 0 secondo questa notazione, e non r 5 e r 11 come da Fig 1b. t=10t=11r4r10r5r11
Lacerbi,

1
C'è qualcosa di strano in corso nell'Eq. 3 come fattore medio nel summand nell'ultima riga è mentre pensavo che x ( r ) t contenga x t . Sospetto che t e t - 1 abbiano cambiato posto come P ( x tr t , x ( r ) t - 1 )P(xtrt1,xt(r))xt(r)xttt1P(xtrt,xt1(r))avrebbe senso. Nell'eq. 11, il lato destro sembra dipendere da che non appare affatto sul lato sinistro, quindi o c'è qualcosa di sbagliato o non capisco affatto la notazione. xt(r)
Juho Kokkala,

@JuhoKokkala: sono contento di non essere l'unico con quella sensazione ...
lacerbi,

1
@lacerbi, ho un'altra domanda su questo documento e penso che potresti essere in grado di rispondere dal momento che ti sembra familiare con il lavoro: stats.stackexchange.com/questions/419988 .
gwg

Risposte:


5

Sia (1) che (1b) sono corretti. L'OP ha ragione nel dire che (in questo modello) potrebbe esserci un punto di cambio in , e x t + 1 dipende dalla presenza o meno di un punto di cambio. Ciò non implica alcun problema con (1) poiché i possibili valori di r t + 1 sono completamente "coperti" da P ( x t + 1r t , x 1 : t ) . P ( x t + 1 | r t , x 1 :t+1xt+1rt+1P(xt+1rt,x1:t)indica la distribuzione condizionale di x t + 1 condizionale su( r t , x 1 : t ). Questa distribuzione condizionale fa una media su "tutto il resto", incluso r t + 1 , condizionato a( r t , x 1 : t ). Proprio come si potrebbe scrivere, diciamo,P( x t + 1000 | x t )P(xt+1|rt,x1:t)xt+1(rt,x1:t)rt+1(rt,x1:t)P(xt+1000|xt), che prenderebbe in considerazione tutte le possibili configurazioni dei punti di cambio, nonché i valori di che si verificano tra t e t + 1000 .xitt+1000

Nel resto, per prima cosa desumo (1) e poi (1b) in base a (1).

Derivazione di (1)

Per ogni variabile casuale , abbiamo P ( A B ) = c P ( A B , C = c )A,B,C purché C sia discreto (altrimenti la somma deve essere sostituita da un integrale). Applicando questo a x t + 1 , x 1 : t , r t :

P(AB)=cP(AB,C=c)P(C=cB),
Cxt+1,x1:t,rt

che detiene indipendentemente dalle dipendenze tra r t , x 1 : t , x t + 1 , ovvero non sono state ancora utilizzate ipotesi di modello. Nel presente modello,si presuppone che x t + 1 dato r t , x ( r ) t * sia condizionatamente indipendente dai valori di x dalle corse prima di x ( r )

P(xt+1x1:t)=rtP(xt+1rt,x1:t)P(rtx1:t),
rtx1:txt+1xt+1rt,xt(r)x . Ciò implicaP(xt+1rt,x1:t)=P(xt+1rt,x ( r ) t ). Sostituendo questo nell'equazione precedente, otteniamoxt(r)P(xt+1rt,x1:t)=P(xt+1rt,xt(r))

P(xt+1x1:t)=rtP(xt+1rt,xt(r))P(rtx1:t),(1)

Derivazione di (1b)

P(xt+1rt,xt(r))rt+1

P(xt+1rt,xt(r))=rt+1P(xt+1rt+1,rt,xt(r))P(rt+1rt,xt(r)).

t+1xtxt+1xP(rt+1rt,xt(r))=P(rt+1rt)rt+1xt+1xtP(xt+1rt+1,rt,xt(r))=P(xt+1rt+1,xt(r))

P(xt+1rt,xt(r))=rt+1P(xt+1rt+1,xt(r))P(rt+1rt).
P(xt+1x1:t)=rt(rt+1P(xt+1rt+1,xt(r))P(rt+1rt))P(rtx1:t),(1b)

* Osservazione delle ipotesi di indipendenza condizionale del modello

rx


1
rt+1rt+1

1
Oh. Sembra quindi che ho frainteso la domanda: devo eliminarlo? Potresti voler chiarire la domanda, al momento sembra che (1) sia in qualche modo errato (anziché forse non utile)
Juho Kokkala

Tieni questa risposta, che è preziosa. Il mio errore di non essere stato abbastanza chiaro nel mio post originale. Ho cercato di chiarire la mia domanda grazie ai tuoi commenti e in un modo che rende ancora significativa questa risposta.
Lacerbi,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.