Unione di osservazioni nel processo gaussiano


11

Sto usando il processo gaussiano (GP) per la regressione.

Nel mio problema è abbastanza comune che due o più punti dati siano vicini l'uno all'altro, relativamente alle scale di lunghezza del problema. Inoltre, le osservazioni possono essere estremamente rumorose. Per accelerare i calcoli e migliorare la precisione delle misurazioni , sembra naturale unire / integrare gruppi di punti vicini l'uno all'altro, purché mi occupi delle previsioni su una scala di lunghezza maggiore.x(1),x(2),

Mi chiedo quale sia un modo rapido ma semi-basato per farlo.

Se due punti dati erano perfettamente sovrapposti, , e il rumore di osservazione (cioè la probabilità) è gaussiano, forse eteroschedastico ma noto , il modo naturale di procedere sembra fonderli in un unico punto dati con:x(1)=x(2)

  • , perk=1,2.x¯x(k)k=1,2

  • Valore osservato che è una media dei valori osservati y ( 1 ) , y ( 2 ) ponderati per la precisione relativa: ˉ y = σ 2 y ( x ( 2 ) )y¯y(1),y(2).y¯=σy2(x(2))σy2(x(1))+σy2(x(2))y(1)+σy2(x(1))σy2(x(1))+σy2(x(2))y(2)

  • Rumore associato all'osservazione pari a: .σy2(x¯)=σy2(x(1))σy2(x(2))σy2(x(1))+σy2(x(2))

Tuttavia, come devo unire due punti vicini ma non sovrapposti?

  • x¯

  • y¯

  • σf22

Prima di procedere, mi chiedevo se ci fosse già qualcosa là fuori; e se questo sembra essere un modo ragionevole di procedere, o ci sono metodi rapidi migliori .

La cosa più vicina che potrei trovare in letteratura è questo articolo: E. Snelson e Z. Ghahramani, Sparse Gaussian Processes using Pseudo-input , NIPS '05; ma il loro metodo è (relativamente) coinvolto e richiede un'ottimizzazione per trovare gli pseudo-input.


1
Ad ogni modo, apprezzo che potrei usare l'inferenza approssimativa o alcuni metodi su larga scala, ma questo è un altro punto.
Lacerbi,

Risposte:


4

Ottima domanda e cosa stai suggerendo sembra ragionevole. Comunque personalmente procederei diversamente per essere efficiente. Come hai detto, due punti vicini forniscono poche informazioni aggiuntive e quindi i gradi di libertà effettivi del modello sono inferiori al numero di punti dati osservati. In tal caso, potrebbe valere la pena usare il metodo Nystroms, che è ben descritto in GPML (il capitolo sulle approssimazioni sparse è disponibile all'indirizzo http://www.gaussianprocess.org/gpml/ ). Il metodo è molto semplice da implementare e recentemente è stato dimostrato di essere estremamente accurato da Rudi et al. ( http://arxiv.org/abs/1507.04717 )


Grazie, il metodo di Nystrom sembra un approccio interessante, lo esaminerò. Tuttavia, nel mio primo post avevo dimenticato di menzionare che il rumore nelle osservazioni può essere molto alto (forse più grande del segnale), in modo che la media dei punti vicini fornirà ulteriori informazioni.
Lacerbi,

1
Bene, questo è in realtà anche un motivo in più per usare il metodo Nystroms. L'alto rumore riduce i gradi effettivi di libertà, quindi se solo i primi autovalori contengono il segnale e il resto è semplicemente rumore, il metodo Nystroms lascerà cadere tutti quelli meno del primo m. Penso che si adatterà al conto per quello che stai cercando. Buona fortuna!
j__

Il metodo Nystrom è ciò che suggerirei (+1). La semplice fusione dei punti in uno può incorrere in problemi con la stima della probabilità marginale del modello poiché è improbabile che i due punti dati autentici abbiano lo stesso effetto di un singolo punto. Il mio consiglio sarebbe di tenere separati i due punti, ma di trovare un modo per rendere il calcolo meno costoso, che dovrebbe essere raggiunto dall'emthod di Nystrom,
Dikran Marsupial

Che tipo di problemi? Se si considera il caso di due punti sovrapposti con rumore gaussiano, il metodo di calcolo della media è esatto (purché si tenga traccia della riduzione del rumore di osservazione). Non vedo perché lo stesso argomento non dovrebbe funzionare per punti che sono vicini alla scala della lunghezza del problema (con l'approssimazione che peggiora con l'aumentare della distanza). Forse è quello che fa il metodo di Nystrom, in un modo più semplice: devo ancora capire i dettagli. Sono curioso di confrontarlo con il metodo di calcolo della media, sia in termini di precisione che di velocità. Grazie
lacerbi,

1
@Seeda non stiamo usando nystrom come un precondizionato efficacemente piuttosto che la solita concomitanza del tempo ridotto, quindi sì.
j__

1

Ho anche indagato sulla fusione di osservazioni durante l'esecuzione della regressione del processo gaussiano. Nel mio problema ho solo una covariata.

Non sono sicuro di essere necessariamente d'accordo sul fatto che l'approssimazione di Nystrom sia preferibile. In particolare, se è possibile trovare un'approssimazione sufficiente sulla base di un set di dati unito, i calcoli potrebbero essere più rapidi rispetto a quando si utilizza l'approssimazione di Nystrom.

Di seguito sono riportati alcuni grafici che mostrano 1000 punti dati e la media GP posteriore, la media GP posteriore con record uniti e la media GP posteriore utilizzando l'approssimazione di Nystrom. I registri sono stati raggruppati in base a secchi di dimensioni uguali della covariata ordinata. L'ordine di approssimazione si riferisce al numero di gruppi quando si uniscono i record e l'ordine dell'approssimazione di Nystrom. L'approccio di fusione e l'approssimazione di Nystrom producono entrambi risultati identici alla regressione GP standard quando l'ordine di approssimazione è uguale al numero di punti.

In questo caso, quando l'ordine dell'approssimazione è 10, l'approccio di fusione sembra preferibile. Quando l'ordine è 20, la media dell'approssimazione di Nystrom è visivamente indistinguibile dall'esatta media posteriore GP, sebbene la media basata sull'unione delle osservazioni sia probabilmente abbastanza buona. Quando l'ordine è 5, entrambi sono piuttosto scadenti.

inserisci qui la descrizione dell'immagine inserisci qui la descrizione dell'immagine inserisci qui la descrizione dell'immagine

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.