Penso di sapere a cosa stava parlando l'oratore. Personalmente non sono completamente d'accordo con lei / lui, e ci sono molte persone che non lo fanno. Ma per essere onesti, ci sono anche molti che lo fanno :) Prima di tutto, nota che specificare la funzione di covarianza (kernel) implica specificare una distribuzione precedente sulle funzioni. Semplicemente cambiando il kernel, le realizzazioni del processo gaussiano cambiano drasticamente, dalle funzioni molto lisce, infinitamente differenziabili, generate dal kernel esponenziale quadrato
al "appuntito", funzioni non differenziabili corrispondenti ad un kernel esponenziale (o kernel Matern con )ν=1/2
x∗
y∗=k∗T(K+σ2I)−1y
k∗x∗x1,…,xnKσσ=0y=(y1,…,yn)è il vettore delle osservazioni nel set di addestramento. Come puoi vedere, anche se la media del GP precedente è zero, la media predittiva non è affatto zero e, a seconda del kernel e del numero di punti di allenamento, può essere un modello molto flessibile, in grado di imparare estremamente modelli complessi.
Più in generale, è il kernel che definisce le proprietà di generalizzazione del GP. Alcuni kernel hanno la proprietà di approssimazione universale , cioè sono in linea di principio in grado di approssimare qualsiasi funzione continua su un sottoinsieme compatto, a qualsiasi tolleranza massima prespecificata, dati abbastanza punti di allenamento.
k(xi−x∗)→0dist(xi,x∗)→∞y*≈ 0
Ora, questo potrebbe avere senso nella tua applicazione: dopo tutto, è spesso una cattiva idea usare un modello basato sui dati per eseguire previsioni lontane dall'insieme di punti dati usati per addestrare il modello. Vedi qui per molti esempi interessanti e divertenti del perché questa può essere una cattiva idea. A questo proposito, il GP a media zero, che converge sempre a 0 lontano dal set di allenamento, è più sicuro di un modello (come ad esempio un modello polinomiale ortogonale multivariato di alto grado), che scaglierà felicemente previsioni follemente grandi non appena ti allontani dai dati di allenamento.
X*