Che cos'è una distribuzione sulle funzioni?


15

Sto leggendo un manuale Gaussian Process for Machine Learning di CE Rasmussen e CKI Williams e non riesco a capire cosa significhi distribuzione su funzioni . Nel libro di testo, viene fornito un esempio, che si dovrebbe immaginare una funzione come un vettore molto lungo (in effetti, dovrebbe essere infinitamente lungo?). Quindi immagino che una distribuzione su funzioni sia una distribuzione di probabilità disegnata "sopra" tali valori vettoriali. Sarebbe quindi una probabilità che una funzione prenda questo particolare valore? O sarebbe una probabilità che una funzione prenda un valore compreso in un determinato intervallo? Oppure la distribuzione sulle funzioni è una probabilità assegnata a un'intera funzione?

Citazioni dal libro di testo:

Capitolo 1: Introduzione, pagina 2

Un processo gaussiano è una generalizzazione della distribuzione di probabilità gaussiana. Mentre una distribuzione di probabilità descrive variabili casuali che sono scalari o vettori (per distribuzioni multivariate), un processo stocastico governa le proprietà delle funzioni. Lasciando da parte la sofisticazione matematica, si può vagamente pensare a una funzione come a un vettore molto lungo, ogni voce nel vettore che specifica il valore della funzione f (x) in un particolare input x. Si scopre che, sebbene questa idea sia un po 'ingenua, è sorprendentemente vicino a ciò di cui abbiamo bisogno. In effetti, la questione di come trattiamo computazionalmente con questi oggetti di dimensione infinita ha la risoluzione più piacevole che si possa immaginare: se si chiedono solo le proprietà della funzione in un numero finito di punti,

Capitolo 2: Regressione, pagina 7

Esistono diversi modi per interpretare i modelli di regressione del processo gaussiano (GP). Si può pensare a un processo gaussiano come a definire una distribuzione su funzioni e inferenze che avvengono direttamente nello spazio di funzioni, la vista spazio-funzione.


Dalla domanda iniziale:

Ho realizzato questo quadro concettuale per provare a visualizzarlo da solo. Non sono sicuro che tale spiegazione che ho fatto per me stesso sia corretta.

inserisci qui la descrizione dell'immagine


Dopo l'aggiornamento:

Dopo la risposta di Gijs ho aggiornato l'immagine per essere concettualmente più simile a questa:

inserisci qui la descrizione dell'immagine


Risposte:


11

Il concetto è un po 'più astratto di una normale distribuzione. Il problema è che siamo abituati al concetto di una distribuzione su R , in genere mostrato come una linea, e quindi lo espandiamo su una superficie R2 , e così via sulle distribuzioni su Rn . Ma lo spazio delle funzioni non può essere rappresentato come un quadrato, una linea o un vettore. Non è un crimine pensarlo in quel modo, come fai tu, ma la teoria che funziona in Rn , che ha a che fare con distanza, quartieri e simili (questa è conosciuta come la topologia dello spazio), non è la stessa cosa nella spazio di funzioni. Quindi disegnarlo come un quadrato può darti intuizioni sbagliate su quello spazio.

Puoi semplicemente pensare allo spazio delle funzioni come a una grande raccolta di funzioni, forse una borsa di cose se vuoi. La distribuzione qui ti dà quindi le probabilità di disegnare un sottoinsieme di quelle cose. La distribuzione dirà: la probabilità che il prossimo sorteggio (di una funzione) sia in questo sottoinsieme, è, ad esempio, il 10%. Nel caso di un processo gaussiano su funzioni in due dimensioni, potresti chiedere, dato xun intervallo di coordinate e un intervallo diy-valori, questo è un piccolo segmento di linea verticale, qual è la probabilità che una funzione (casuale) passi attraverso questa piccola linea? Sarà una probabilità positiva. Quindi il processo gaussiano specifica una distribuzione (di probabilità) su uno spazio di funzioni. In questo esempio, il sottoinsieme dello spazio di funzioni è il sottoinsieme che passa attraverso il segmento di linea.

R


1
Grazie, quindi per chiarire, questa non è una distribuzione sui valori di una funzione, ma piuttosto una distribuzione su una raccolta di funzioni, giusto? Un'altra domanda che ho: hai detto che questa sarebbe una probabilità che una funzione casuale passi attraverso un certo intervallo, quindi nell'esempio di GPR sarebbe una funzione casuale ma da una specifica "famiglia" di funzioni fornite da il kernel di covarianza?
Camillejr,

2
Sì, è una distribuzione su una raccolta di funzioni. L'esempio del passaggio attraverso un intervallo si applica se si dispone di un processo gaussiano. Il kernel di covarianza specificherà effettivamente un processo gaussiano. Quindi, se conosci un kernel di covarianza, puoi calcolare la probabilità che una funzione casuale passi attraverso un intervallo specifico.
Gijs,

14

La tua domanda è già stata posta e ha ricevuto un'ottima risposta sul sito Mathematics SE:

/math/2297424/extending-a-distribution-over-samples-to-a-distribution-over-functions

Sembra che tu non abbia familiarità con i concetti di misure gaussiane su spazi infiniti dimensionali , funzionali lineari, misure pushforward, ecc. Quindi proverò a renderlo il più semplice possibile.

L2([0,1])I=[0,1]RRnL2

Tuttavia, esiste anche un semplice "trucco" basato sul teorema di estensione di Kolmogorov , che è fondamentalmente il modo in cui i processi stocastici vengono introdotti nella maggior parte dei corsi di probabilità che non sono fortemente teorici di misura. Ora sarò molto mosso e non rigoroso, e mi limiterò al caso dei processi gaussiani. Se desideri una definizione più generale, puoi leggere la risposta sopra o cercare il link Wikipedia. Il teorema di estensione di Kolmogorov, applicato al tuo caso d'uso specifico, afferma più o meno quanto segue:

  • Sn={t1,,tn}Ixn=(x(t1),,x(tn))
  • Sn,Sm,SnSmfSn(x1,,xn)fSm(x1,,xn,xn+1,,xm)fSmSmSnfSn

Rnm+1fSm(x1,,xn,xn+1,,xm)dxn+1dxm=fSn(x1,,xn)

  • XL2Snn

Il teorema attuale è ampiamente più generale, ma immagino che questo sia quello che stavi cercando.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.