Ottimizzazione dell'iperparametro nella regressione del processo gaussiana

Sto cercando di ottimizzare gli iperparametri dell'algoritmo di regressione del processo gaussiano che ho implementato. Voglio semplicemente massimizzare la verosimiglianza marginale data dalla formula dove è la matrice di covarianza con il elementi dove e e sono iperparametri.

\log (y | X, θ) = - \frac{1}{2} y^{T} K_{y}^{- 1} y - \frac{1}{2} \log (det (K)) - \frac{n}{2} \log (2 π)

$\log(\mathbf{y}|X,\mathbf{\theta})=-\frac{1}{2} \mathbf{y}^TK_y^{-1}\mathbf{y}-\frac{1}{2}\log(\det(K))-\frac{n}{2}\log(2\pi)$

K

$K$

K_{io j} = K (X_{io}, X_{j}) = B^{- 1} \exp (- \frac{1}{2} (X_{io} - X_{j})^{T} M (X_{io} - X_{j})) + {un'}^{- 1} δ_{io j}

$K_{ij}=k(x_i,x_j)=b^{-1}\exp(-\frac{1}{2}(x_i-x_j)^TM(x_i-x_j))+a^{-1}\delta_{ij}$

M = l I

$M=lI$

a, b

$a,b$

l

$l$

la derivata parziale dei parametri wrt di verosimiglianza marginale log è data dai seguenti

\frac{\log (y | X, θ)}{d θ} = \frac{1}{2} t r un' c e (K^{- 1} \frac{d K}{d θ}) + \frac{1}{2} (y \frac{d K}{d θ} K^{- 1} \frac{d K}{d θ} y)

$\frac{\log(\mathbf{y}|X,\mathbf{\theta})}{d\theta}=\frac{1}{2}\mathrm{trace}(K^{-1}\frac{dK}{d\theta})+\frac{1}{2}(\mathbf{y}\frac{dK}{d\theta}K^{-1}\frac{dK}{d\theta}\mathbf{y})$

Quando i dati di $K$ dipendono dai parametri, così fanno derivati e inversa $K$ . Ciò significa che, quando viene impiegato un ottimizzatore basato sul gradiente, la valutazione del gradiente in un determinato punto (valore del parametro) richiederà la ricomputazione della matrice di covarianza. Nella mia applicazione, ciò non è fattibile perché calcolare la matrice di covarianza da zero e calcolare il suo inverso in ogni iterazione dell'ascesa a gradiente è troppo costoso. La mia domanda è: quali sono le mie opzioni per trovare una combinazione abbastanza buona di questi tre parametri? e inoltre non so quale parametro ottimizzare per primo e apprezzerei anche qualsiasi suggerimento su questo problema.

— bfaskiplar
fonte

Ho avuto successo usando HMC per campionare iper-parametri GP per set di dati di dimensioni modeste.

— Sycorax dice di reintegrare Monica il

Ciao @Sycorax, potresti dirci come hai usato questa tecnica per risolvere questo problema? Ho lo stesso problema che l'OP ha chiesto e ho pensato di usare MCMC per risolverlo, ma non so ancora come farlo.

— Willian Fuks,

Ho appena programmato il GP a Stan. Gli iperparametri GP sono stati dichiarati come parametri del modello e dedotti di conseguenza. Ciò ha generato una serie di previsioni per ogni iterazione HMC. Gelman illustra come tutto questo funziona in BDA3.

— Sycorax dice di reintegrare Monica il

Hai ragione, hai bisogno di un nuovo calcolo della matrice di covarianza su ogni iterazione dell'ascesa a gradiente. Quindi, se il calcolo della matrice non è fattibile per la tua impostazione, quindi, penso, non puoi usare l'ottimizzazione della probabilità marginale basata sul gradiente.

Il mio suggerimento è di utilizzare metodi senza gradiente per l'ottimizzazione dell'iperparametro, come la ricerca della griglia, la ricerca casuale o la ricerca basata sull'ottimizzazione bayesiana . Questi metodi sono ampiamente utilizzati per l'iperparametro di ottimizzazione di altri algoritmi di apprendimento automatico, ad esempio SVM.

Suggerisco la ricerca della griglia per il tuo primo tentativo. Fondamentalmente formi una tabella (griglia) di possibili iperparametri, provali tutti e cerchi le migliori prestazioni di validazione (o la migliore probabilità marginale).

La ricerca della griglia produrrebbe un insieme non ottimale di iperparametri e dovrai specificare la griglia da solo. (e non hai bisogno del gradiente!)

Se non si ha familiarità con la ricerca della griglia, è possibile cercare Wikipedia: Ottimizzazione dell'iperparametro - Ricerca griglia

— Sangwoong Yoon
fonte