Penso che la chiave della magia sia la fluidità. La mia lunga risposta che segue è semplicemente quella di spiegare questa fluidità. Potrebbe essere o meno una risposta che ti aspetti.
Risposta breve:
Dato un kernel definito positivo , esiste il suo corrispondente spazio di funzioni . Le proprietà delle funzioni sono determinate dal kernel. Si scopre che se è un kernel gaussiano, le funzioni in sono molto fluide. Quindi, una funzione appresa (ad es. Una funzione di regressione, componenti principali in RKHS come nel kernel PCA) è molto fluida. Di solito il presupposto della fluidità è ragionevole per la maggior parte dei set di dati che vogliamo affrontare. Questo spiega perché un kernel gaussiano è magico.H k HkHkH
Risposta lunga per cui un kernel gaussiano offre funzioni fluide:
Un kernel definito positivo definisce (implicitamente) un prodotto interno
per il vettore funzione costruito dall'input , e
è uno spazio di Hilbert. La notazione
indica un prodotto interno tra e . Per il nostro scopo, puoi immaginare come il solito spazio euclideo ma possibilmente con un numero infinito di dimensioni. Immagina il solito vettore infinitamente lungo comek ( x , y ) = ⟨ φ ( x ) , φ ( y ) ⟩ H φ ( x ) x H ⟨ φ ( x ) , φ ( y ) ⟩ φ ( x ) φ ( y ) H ϕ ( x ) = ( ϕ 1 ( xk(x,y)k(x,y)=⟨ϕ(x),ϕ(y)⟩Hϕ(x)xH⟨ϕ(x),ϕ(y)⟩ϕ(x)ϕ(y)H H f ( x ) = ⟨ f , φ ( x ) ⟩ f ( x ) f x φ ( x ) f ( x ) kϕ(x)=(ϕ1(x),ϕ2(x),…). Nei metodi del kernel, è uno spazio di funzioni chiamato riproduzione dello spazio di Hilbert del kernel (RKHS). Questo spazio ha una proprietà speciale chiamata `` proprietà riproducente '' che è quella . Questo dice che per valutare , prima costruisci un vettore di funzione (infinitamente lungo come menzionato) per . Quindi costruisci il tuo vettore di caratteristiche per indicato da (infinitamente lungo). La valutazione di è data prendendo un prodotto interno dei due. Ovviamente, in pratica, nessuno costruirà un vettore infinitamente lungo. Dato che ci preoccupiamo solo del suo prodotto interno, valutiamo direttamente direttamente il kernelHf(x)=⟨f,ϕ(x)⟩f(x)fxϕ(x)f(x)k. Bypassare il calcolo di funzioni esplicite e calcolare direttamente il suo prodotto interno è noto come "trucco del kernel".
Quali sono le caratteristiche?
Continuavo a dire caratteristiche senza specificare quali fossero. Dato un kernel , le funzionalità non sono uniche. Ma
è determinato in modo univoco. Per spiegare la fluidità delle funzioni, consideriamo le funzionalità di Fourier. Supponiamo un kernel invariante di traduzione , che significa
, cioè il kernel dipende solo dalla differenza dei due argomenti. Il kernel gaussiano ha questa proprietà. Lascia che denoti la trasformata di Fourier di .k ⟨ φ ( x ) , φ ( y ) ⟩ k k ( x , y ) = k ( x - y ) k kϕ1(x),ϕ2(x),…k⟨ϕ(x),ϕ(y)⟩kk(x,y)=k(x−y)k^k
In questo punto di vista di Fourier, le caratteristiche di
sono date da . Questo sta dicendo che la rappresentazione della caratteristica della tua funzione
è data dalla sua trasformata di Fourier divisa per la trasformata di Fourer del kernel . La rappresentazione della funzione di , che è
è
dove . Si può dimostrare che la proprietà riproduttiva è valida (un esercizio per i lettori).f : = ( ⋯ , f l / √ffkxφ(x)(⋯,√f:=(⋯,f^l/k^l−−√,⋯)fkxϕ(x)i=√(⋯,k^l−−√exp(−ilx),⋯)i=−1−−−√
Come in ogni spazio di Hilbert, tutti gli elementi appartenenti allo spazio devono avere una norma finita. Consideriamo la norma quadrata di un :f∈H
∥f∥2H=⟨f,f⟩H=∑∞l=−∞f^2lk^l.
Quindi quando questa norma è finita, cioè appartiene allo spazio? È quando scende più velocemente di modo che la somma converga. Ora, la trasformata di Fourier di un kernel gaussianoff^2lk^l k(x,y)=exp(−∥x−y∥2σ2)
è un altro gaussiano in cui diminuisce esponenzialmente velocemente con . Quindi, se deve trovarsi in questo spazio, la sua trasformata di Fourier deve scendere anche più velocemente di quella di . Ciò significa che la funzione avrà effettivamente solo alcuni componenti a bassa frequenza con pesi elevati. Un segnale con solo componenti a bassa frequenza non si `` muove '' molto. Questo spiega perché un kernel gaussiano ti dà una funzione regolare.k^llfk
Extra: che dire di un kernel Laplace?
Se consideri un kernel di Laplace , la
sua trasformata di Fourier è una distribuzione di Cauchy che scende molto più lentamente dell'esponenziale funzione nella trasformata di Fourier di un kernel gaussiano. Ciò significa che una funzione avrà più componenti ad alta frequenza. Di conseguenza, la funzione fornita da un kernel Laplace è `` più ruvida '' di quella fornita da un kernel gaussiano.k(x,y)=exp(−∥x−y∥σ)f
Qual è una proprietà del kernel gaussiano che altri kernel non hanno?
Indipendentemente dalla larghezza gaussiana, una proprietà è che il kernel gaussiano è `` universale ''. Intuitivamente, questo significa, data una limitata continuo funzione (arbitraria), esiste una funzione tale che e
sono vicini (nel senso di fino alla precisione arbitraria necessaria. Fondamentalmente, questo significa che il kernel gaussiano fornisce funzioni che possono approssimare arbitrariamente bene le funzioni "belle" (limitate, continue). I kernel gaussiani e di Laplace sono universali. Un kernel polinomiale, ad esempio, non lo è.gf∈Hfg∥⋅∥∞)
Perché non mettiamo la norma attraverso, diciamo, un PDF di Cauchy e ci aspettiamo gli stessi risultati?
In generale, puoi fare tutto ciò che ti piace purché il risultante
sia definito positivo. La definizione positiva è definita come
per tutti , e tutti
(set di numeri naturali) . Se non è definito positivo, allora non corrisponde a uno spazio interno del prodotto. Tutta l'analisi si interrompe perché non hai nemmeno uno spazio di funzioni
come menzionato. Tuttavia, potrebbe funzionare empiricamente. Ad esempio, il kernel tangente iperbolico (vedere il numero 7 in questa pagina )k∑Ni=1∑Nj=1k(xi,xj)αiαj>0αi∈R{xi}Ni=1N∈NkH
k(x,y)=tanh(αx⊤y+c)
che ha lo scopo di imitare le unità di attivazione sigmoidea nelle reti neurali, è solo definito positivo per alcune impostazioni di e . Tuttavia è stato riferito che funziona in pratica.αc
Che dire di altri tipi di funzionalità?
Ho detto che le funzionalità non sono uniche. Per il kernel gaussiano, un altro set di funzionalità è dato dall'espansione di Mercer . Vedere la sezione 4.3.1 del famoso quaderno gaussiano . In questo caso, le caratteristiche sono polinomi di Hermite valutati in .ϕ(x)x