Sto cercando di ottimizzare gli iperparametri dell'algoritmo di regressione del processo gaussiano che ho implementato. Voglio semplicemente massimizzare la verosimiglianza marginale data dalla formula dove K è la matrice di covarianza con il elementi K_ {ij} = k (x_i, x_j) = b ^ {- 1} \ exp (- \ frac {1} {2} (x_i-x_j) ^ TM (x_i-x_j)) + a ^ {- 1 } \ delta_ {ij} dove M = lI e a, b e l sono iperparametri.KKij=k(xi,xj)=b-1exp(-1
la derivata parziale dei parametri wrt di verosimiglianza marginale log è data dai seguenti
Quando i dati di dipendono dai parametri, così fanno derivati e inversa . Ciò significa che, quando viene impiegato un ottimizzatore basato sul gradiente, la valutazione del gradiente in un determinato punto (valore del parametro) richiederà la ricomputazione della matrice di covarianza. Nella mia applicazione, ciò non è fattibile perché calcolare la matrice di covarianza da zero e calcolare il suo inverso in ogni iterazione dell'ascesa a gradiente è troppo costoso. La mia domanda è: quali sono le mie opzioni per trovare una combinazione abbastanza buona di questi tre parametri? e inoltre non so quale parametro ottimizzare per primo e apprezzerei anche qualsiasi suggerimento su questo problema.