Regressione lineare vs RKHS regolarizzata


9

Sto studiando la differenza tra regolarizzazione nella regressione RKHS e regressione lineare, ma faccio fatica a capire la differenza cruciale tra i due.

(xi,yi)f()

f(x)u(x)=i=1mαiK(x,xi),
K(,)αm
minαRn1nYKαRn2+λαTKα,
dove, con qualche abuso di notazione, la voce i,j 'della matrice K del kernel Kè K(xi,xj) . Questo dà
α=(K+λnI)1Y.
In alternativa, potremmo trattare il problema come un normale problema di regressione della cresta / regressione lineare:
minαRn1nYKαRn2+λαTα,
con soluzione
α=(KTK+λnI)1KTY.

Quale sarebbe la differenza cruciale tra questi due approcci e le loro soluzioni?



@MThQ - La tua descrizione della regressione della cresta 'normale' non funziona ancora nel doppio? Giusto per chiarire che penso che si supponga che la regressione della cresta normale stia funzionando nel primal (dove viene fatta la rappresentazione esplicita della caratteristica).
rimodella il

Risposte:


5

Come probabilmente avrete notato quando scrivete i problemi di ottimizzazione, l'unica differenza nella minimizzazione è quale norma di Hilbert usare per la penalizzazione. Cioè, per quantificare quali "grandi" valori di sono a fini di penalizzazione. Nell'impostazione RKHS, utilizziamo il prodotto interno RKHS, , mentre la regressione della cresta penalizza rispetto alla norma euclidea.α t K αααtKα

Una conseguenza teorica interessante è come ogni metodo effetti lo spettro del kernel riproduzione . Secondo la teoria RKHS, abbiamo che è definito simmetrico positivo definito. Con il teorema spettrale, possiamo scrivere dove è la matrice diagonale degli autovalori e è la matrice ortonormale degli autovettori. Di conseguenza, nell'impostazione RKHS, Nel frattempo, nell'impostazione di regressione di Ridge, nota che per simmetria, K K = U t D U DKKK=UtDUD( K + λ n I ) - 1 YUKtK=K

(K+λnI)1Y=[Ut(D+λnI)U]1Y=Ut[D+λnI]1UY.
KtK=K2
(K2+λnI)1KY=[Ut(D2+λnI)U]1KY=Ut[D2+λnI]1UKY=Ut[D2+λnI]1DUY=Ut[D+λnD1]1UY.
Lascia che lo spettro di sia . Nella regressione RKHS, gli autovalori sono stabilizzati da . Nella regressione di Ridge, abbiamo . Di conseguenza, RKHS modifica uniformemente gli autovalori mentre Ridge aggiunge un valore maggiore se il corrispondente è più piccolo.Kν1,,νnνiνi+λnνiνi+λn/νiνi

A seconda della scelta del kernel, le due stime per possono essere vicine o distanti tra loro. La distanza nel senso della norma dell'operatore sarà Tuttavia, questo è ancora limitato per un datoαY

αRKHSαRidge2=ARKHSYARidgeY2[D+λnI]1[D+λnD1]1Y2maxi=1,,n{|(νi+λn)1(νi+λn/νi)1|}Y2maxi=1,,n{λn|1νi|(νi+λn)(νi2+λn)}Y2
Y, quindi i tuoi due stimatori non possono essere arbitrariamente distanti. Quindi, se il tuo kernel è vicino all'identità, allora probabilmente ci sarà poca differenza negli approcci. Se i tuoi kernel sono molto diversi, i due approcci possono comunque portare a risultati simili.

In pratica, è difficile dire definitivamente se uno è migliore dell'altro per una determinata situazione. Dato che stiamo minimizzando rispetto all'errore quadrato quando rappresentiamo i dati in termini di funzione del kernel, stiamo effettivamente scegliendo una migliore curva di regressione dal corrispondente spazio di funzioni di Hilbert. Quindi, penalizzare rispetto al prodotto interno RKHS sembra essere il modo naturale di procedere.


1
Hai un riferimento per questo?
rimodella il
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.