Problema del giocattolo di regressione del processo gaussiano


9

Stavo cercando di ottenere alcune intuizioni per la regressione del processo gaussiano, quindi ho provato un semplice problema con il giocattolo 1D. Ho preso come input e come risposte. ('Ispirato' da )y i = { 1 , 4 , 9 } y = x 2xi={1,2,3}yi={1,4,9}y=x2

Per la regressione ho usato una funzione esponenziale quadrata standard del kernel:

k(xp,xq)=σf2exp(12l2|xpxq|2)

Ho assunto che ci fosse un rumore con deviazione standard , in modo che la matrice di covarianza diventasse:σn

Kpq=k(xp,xq)+σn2δpq

Gli iperparametri sono stati stimati massimizzando la verosimiglianza dei dati. Per fare una previsione in un punto , ho trovato rispettivamente la media e la varianza nel modo seguentex (σn,l,σf)x

σ 2 x = k ( x , x ) - k T ( K + σ 2 n I ) - 1 k

μx=kT(K+σn2I)1y
σx2=k(x,x)kT(K+σn2I)1k

dove è il vettore della covarianza tra e gli input e è un vettore degli output.x ykxy

I miei risultati per sono mostrati di seguito. La linea blu è la media e le linee rosse indicano gli intervalli di deviazione standard.1<x<3

I risultati

Non sono sicuro se questo sia giusto però; i miei input (contrassegnati dalle "X") non si trovano sulla linea blu. La maggior parte degli esempi che vedo hanno la media che interseca gli input. È prevedibile questa caratteristica generale?


1
Se dovessi indovinare, negli esempi che stavi guardando non c'erano errori residui. In tal caso la linea passerebbe attraverso tutti i punti.
ragazzo

@Guy esattamente.

Risposte:


10

La funzione media che passa attraverso i punti dati è di solito un'indicazione di sovra-adattamento. L'ottimizzazione degli iperparametri massimizzando la probabilità marginale tenderà a favorire modelli molto semplici a meno che non vi siano dati sufficienti per giustificare qualcosa di più complesso. Dato che hai solo tre punti dati, che sono più o meno in linea con poco rumore, il modello che è stato trovato mi sembra abbastanza ragionevole. In sostanza, i dati possono essere spiegati come una funzione sottostante lineare con rumore moderato o una funzione sottostante moderatamente non lineare con poco rumore. La prima è la più semplice delle due ipotesi ed è favorita dal "rasoio di Occam".


Grazie per l'input. Puoi dirmi di più sul "montaggio eccessivo"; è una caratteristica positiva / negativa?
Comp_Warrior il

l'eccessivo adattamento è una cosa negativa, in pratica significa che il modello sta memorizzando la variazione casuale dei dati, il che tende a peggiorare le prestazioni di generalizzazione. Idealmente, si desidera che il modello apprenda la forma sottostante dei dati ignorando il rumore che lo contamina. La maggior parte dei buoni libri di testo per l'apprendimento automatico tratterà questo in un capitolo iniziale.
Dikran Marsupial,

solo per interesse, perché il downvote?
Dikran Marsupial,

Non ti ho votato in negativo; in effetti ho votato!
Comp_Warrior il

2
nessun problema Comp_Warrior, non pensavo fossi tu, ma qualcuno ha declassato la mia risposta e sarei felice di avere un feedback sul perché. Siamo tutti fallibili e se ho qualcosa di sbagliato nella mia risposta, sono ansioso di correggerlo.
Dikran Marsupial,

7

Stai usando gli stimatori di Kriging con l'aggiunta di un termine di rumore (noto come effetto pepita nella letteratura di processo gaussiana). Se il termine del rumore è stato impostato su zero, ovvero

σn2δpq=0

quindi le tue previsioni fungerebbero da interpolazione e passerebbero attraverso i punti dati di esempio.


3

Questo mi sembra a posto, nel libro GP di Rasmussen mostra sicuramente esempi in cui la funzione media non passa attraverso ciascun punto dati. Si noti che la linea di regressione è una stima per la funzione sottostante e stiamo assumendo che le osservazioni siano i valori della funzione sottostante più un po 'di rumore. Se la linea di regressione si basa su tutti e tre i punti, in sostanza si direbbe che non vi è alcun rumore nei valori osservati.

σn=0

l

ll

Come osservato da Dikran Marsupial, questa è una caratteristica integrata dei processi gaussiani, la probabilità marginale penalizza modelli troppo specifici e preferisce quelli che possono spiegare molti set di dati.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.