Perché la funzione media nel processo gaussiano non è interessante?


28

Ho appena iniziato a leggere sui GP e analogo alla normale distribuzione gaussiana è caratterizzata da una funzione media e dalla funzione di covarianza o dal kernel. Ero a un discorso e l'oratore ha detto che la funzione media di solito è piuttosto poco interessante e tutto lo sforzo di deduzione è speso per stimare la corretta funzione di covarianza.

Qualcuno può spiegarmi perché dovrebbe essere così?

Risposte:


33

Penso di sapere a cosa stava parlando l'oratore. Personalmente non sono completamente d'accordo con lei / lui, e ci sono molte persone che non lo fanno. Ma per essere onesti, ci sono anche molti che lo fanno :) Prima di tutto, nota che specificare la funzione di covarianza (kernel) implica specificare una distribuzione precedente sulle funzioni. Semplicemente cambiando il kernel, le realizzazioni del processo gaussiano cambiano drasticamente, dalle funzioni molto lisce, infinitamente differenziabili, generate dal kernel esponenziale quadrato

inserisci qui la descrizione dell'immagine

al "appuntito", funzioni non differenziabili corrispondenti ad un kernel esponenziale (o kernel Matern con )ν=1/2

inserisci qui la descrizione dell'immagine

x

y=kT(K+σ2I)1y

kxx1,,xnKσσ=0y=(y1,,yn)è il vettore delle osservazioni nel set di addestramento. Come puoi vedere, anche se la media del GP precedente è zero, la media predittiva non è affatto zero e, a seconda del kernel e del numero di punti di allenamento, può essere un modello molto flessibile, in grado di imparare estremamente modelli complessi.

Più in generale, è il kernel che definisce le proprietà di generalizzazione del GP. Alcuni kernel hanno la proprietà di approssimazione universale , cioè sono in linea di principio in grado di approssimare qualsiasi funzione continua su un sottoinsieme compatto, a qualsiasi tolleranza massima prespecificata, dati abbastanza punti di allenamento.

k(xix)0dist(xi,x)y*0

Ora, questo potrebbe avere senso nella tua applicazione: dopo tutto, è spesso una cattiva idea usare un modello basato sui dati per eseguire previsioni lontane dall'insieme di punti dati usati per addestrare il modello. Vedi qui per molti esempi interessanti e divertenti del perché questa può essere una cattiva idea. A questo proposito, il GP a media zero, che converge sempre a 0 lontano dal set di allenamento, è più sicuro di un modello (come ad esempio un modello polinomiale ortogonale multivariato di alto grado), che scaglierà felicemente previsioni follemente grandi non appena ti allontani dai dati di allenamento.

X*


Delta, sai quale sarebbe una buona funzione media?
Un vecchio nel mare.

1
@Anoldmaninthesea dipende molto dall'applicazione. Come ho spiegato, a meno che tu non abbia bisogno di un modello interpretabile o non sia interessato a previsioni "lontane" dal tuo set di allenamento, sarebbe probabilmente meglio concentrare i tuoi sforzi sul miglioramento della funzione di covarianza, piuttosto che della funzione media
DeltaIV

1
Delta, bene nel mio caso, devo provare a fare alcune previsioni che potrebbero essere molto lontane dai dati osservati ... Ho fatto questa domanda qui stats.stackexchange.com/questions/375468/…
Un vecchio nel mare.

6

Non possiamo parlare a nome della persona che ha tenuto la lezione; forse l'oratore aveva un'idea diversa in mente quando l'oratore ha fatto questa affermazione. Tuttavia, nel caso in cui si stia tentando di costruire previsioni posteriori da un GP, ​​una funzione media costante ha una soluzione a forma chiusa che può essere calcolata esattamente. Tuttavia, nel caso di una funzione media più generale, è necessario ricorrere a metodi approssimativi, ad esempio la simulazione.

Inoltre, la funzione di covarianza controlla la rapidità (e dove) si verificano le deviazioni dalla funzione media, quindi spesso accade che una funzione di covarianza più flessibile / rigida possa essere "abbastanza buona" per approssimare una funzione media più elaborata - che garantisce nuovamente accesso alle proprietà di convenienza di una funzione media costante.


Grazie per questa spiegazione. Sì, non potevo fare la mia domanda e mi chiedevo se ci fosse una ragione di principio per questo.
Luca

6

yt=c+γyt1+etE[yt]μ=c1γ

cγ

V=μr
r

y1=c+γy0
y0


0

Per dirla semplicemente, la funzione media domina la funzione di covarianza per input "molto lontani" dalle osservazioni.
È un modo per iniettare le tue conoscenze precedenti nella macro dinamica del tuo sistema.


1
Non capisco la tua risposta. Potresti chiarire?
Michael R. Chernick,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.