Comprensione della regressione del processo gaussiana tramite la vista della funzione base infinita dimensionale


14

Si dice spesso che la regressione del processo gaussiano corrisponda (GPR) alla regressione lineare bayesiana con una quantità (forse) infinita di funzioni di base. Attualmente sto cercando di capire questo in dettaglio per ottenere un'intuizione per quale tipo di modelli posso esprimere usando GPR.

  1. Pensi che questo sia un buon approccio per cercare di capire il GPR?

Nel libro Gaussian Processes for Machine learning Rasmussen e Williams mostrano che l'insieme dei processi gaussiani descritti dal kernel esponenziale parametrizzato quadrato può essere equivalentemente descritto come regressione bayesiana con precedente convinzionewN(0,σ 2 p I)sui pesi e una quantità infinita di funzioni base della formaϕc(x;l)=exp(-(x-c)2

K(X,X';l)=σp2exp(-(X-X)22l2)
w~N(0,σp2io) Pertanto, la parametrizzazione del kernel potrebbe tradursi completamente in una parametrizzazione delle funzioni di base.
φc(X;l)=exp(-(X-c)22l2)
  1. La parametrizzazione di un kernel differenziabile può sempre essere tradotta in parametrizzazione delle funzioni precedenti e di base o esistono kernel differenziabili in cui, ad esempio, il numero delle funzioni di base dipende dalla configurazione?

K(X,X')

K(X,X')=Σio=1λioφio(X)φio(X')
φiow~N(0,diag([λ12,...]))φioK(X,X',θ)θ

La mia prossima domanda riguarda l'inverso del teorema di mercer.

  1. Quali set di funzioni di base portano a kernel validi?

E l'estensione

  1. Quali set di funzioni di base parametrizzate portano a kernel differenziabili validi?

Risposte:


1

Ecco alcune osservazioni. Forse qualcun altro può compilare i dettagli.

1) Le rappresentazioni di base sono sempre una buona idea. È difficile evitarli se vuoi davvero fare qualcosa di computazionale con la tua funzione di covarianza. L'espansione di base può darti un'approssimazione del kernel e qualcosa su cui lavorare. La speranza è che tu possa trovare una base che abbia senso per il problema che stai cercando di risolvere.

θθ

Tipicamente, il numero di funzioni di base sarà (numerabile) infinito, quindi il numero non varierà con il parametro, a meno che alcuni valori non causino la degenerazione del kernel.

w~N(0,dioun'g[λ12,...])wdioun'g[λ12,...]

λioλioX

Se le funzioni di base non sono ortogonali, sarà più difficile dimostrare che una covarianza definita da esse è definita positiva. Ovviamente, in quel caso non hai a che fare con un'espansione autigena, ma con un altro modo di approssimare la funzione di interesse.

Tuttavia, non penso che le persone in genere inizino da un mucchio di funzioni e quindi provino a creare un kernel di covarianza da esse.

RE: Differenzialità del kernel e differenziabilità delle funzioni di base. In realtà non conosco la risposta a questa domanda, ma vorrei offrire la seguente osservazione.

L'analisi funzionale procede approssimando le funzioni (da uno spazio dimensionale infinito) con somme finite di funzioni più semplici. Per far funzionare tutto, tutto dipende dal tipo di convergenza coinvolta. In genere, se si lavora su un set compatto con forti proprietà di convergenza (convergenza uniforme o sommabilità assoluta) sulle funzioni di interesse, si ottiene il tipo di risultato intuitivo che si sta cercando: le proprietà delle funzioni semplici passano a la funzione limite - ad es. se il kernel è una funzione differenziabile di un parametro, le funzioni di espansione devono essere funzioni differenziabili dello stesso parametro e viceversa. Con proprietà di convergenza più deboli o domini non compatti, ciò non accade. Nella mia esperienza, c'è un contro-esempio per ogni idea "ragionevole" che viene in mente.

Nota: per prevenire possibili confusioni da parte dei lettori di questa domanda, si noti che l'espansione gaussiana del punto 1 non è un esempio dell'espansione autigena del punto 2.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.