Differenza tra regressione cresta primordiale, doppia e del kernel

Qual è la differenza tra Primal , Dual e Kernel Ridge Regression? Le persone usano tutte e tre le cose e, a causa della diversa notazione che tutti usano su fonti diverse, è difficile per me seguire.

Qualcuno può dirmi in parole semplici qual è la differenza tra questi tre? Inoltre, quali potrebbero essere alcuni vantaggi o svantaggi di ciascuno e quale può essere la loro complessità?

regression kernel-trick ridge-regression

— Jim Blum
fonte

Risposta breve: nessuna differenza tra Primal e Dual: riguarda solo il modo di arrivare alla soluzione. La regressione della cresta del kernel è essenzialmente la stessa della normale regressione della cresta, ma usa il trucco del kernel per andare non lineare.

Regressione lineare

Prima di tutto, una normale regressione lineare dei minimi quadrati cerca di adattare una linea retta all'insieme dei punti dati in modo tale che la somma degli errori al quadrato sia minima.

enter image description here

Parametrizziamo la linea di adattamento migliore con $\mathbb w$ e per ciascun punto dati $(\mathbf x_i, y_i)$ vogliamo $\mathbf w^T \mathbf x_i \approx y_i$ . Sia $e_i = y_i - \mathbf w^T \mathbf x_i$ l'errore - la distanza tra i valori previsti e reali. Quindi il nostro obiettivo è ridurre al minimo la somma degli errori al quadrato $\sum e_i^2 = \| \mathbf e \|^2 = \| X \mathbf w - \mathbf y \|^2$ dove $X = \begin{bmatrix} — \mathbf x_1 \,— \\ — \mathbf x_2 \,— \\ \vdots \\ — \mathbf x_n \,— \end{bmatrix}$ - una matrice di dati tra $\mathbf x_i$ essendo una riga, e $\mathbf y = (y_1 , \ ... \ , y_n)$ un vettore con tutti i $y_i$ s'.

Pertanto, l'obiettivo è $\min\limits_{\mathbf w} \| X \mathbf w - \mathbf y \|^2$ e la soluzione è $\mathbf w = (X^T X)^{-1} X^T \mathbf y$ (nota come "Equazione normale").

Per un nuovo punto dati invisibile ne prevediamo il valore target as . $\mathbf x$ $\hat y$ $\hat y = \mathbf w^T \mathbf x$

Regressione della cresta

Quando ci sono molte variabili correlate nei modelli di regressione lineare, i coefficienti $\mathbf w$ possono diventare scarsamente determinati e presentare molte varianze. Una delle soluzioni a questo problema è quello di limitare i pesi $\mathbf w$ in modo che non superino un certo budget $C$ . Ciò equivale all'utilizzo della regolarizzazione di $L_2$ , nota anche come "riduzione del peso": diminuirà la varianza al costo di perdere talvolta i risultati corretti (ovvero introducendo alcuni errori).

Ora l'obiettivo diventa $\min\limits_{\mathbf w} \| X \mathbf w - y \|^2 + \lambda \, \| \mathbf w \|^2$ , con $\lambda$ come parametro di regolarizzazione. Passando attraverso la matematica, otteniamo la seguente soluzione: $\mathbf w = (X^T X + \lambda \, I )^{-1} X^T \mathbf y$ . E 'molto simile al consueto regressione lineare, ma qui si aggiunge $\lambda$ a ciascun elemento diagonale di $X^T X$ .

Nota che possiamo riscrivere $\mathbf w$ come $\mathbf w = X^T \, (X X^T + \lambda \, I)^{-1} \mathbf y$ (vediquiper i dettagli). Per un nuovo punto di dati invisibile $\mathbf x$ prevediamo il suo valore bersaglio come $\hat y$ $\hat y = \mathbf x^T \mathbf w = \mathbf x^T X^T \, (X X^T + \lambda \, I)^{-1} \mathbf y$ . Sia $\boldsymbol \alpha = (X X^T + \lambda \, I)^{-1} \mathbf y$ . Poi . $\hat y = \mathbf x^T X^T \boldsymbol \alpha = \sum\limits_{i=1}^{n} \alpha_i \cdot \mathbf x^T \mathbf x_i$

Doppia forma di regressione della cresta

Possiamo dare uno sguardo diverso al nostro obiettivo e definire il seguente problema di programma quadratico:

$\min\limits_{\mathbf e, \mathbf w} \sum\limits_{i = 1}^n e_i^2$ st $e_i = y_i - \mathbf w^T \mathbf x_i$ per $i = 1 \, .. \, n$ e $\| \mathbf w \|^2 \leqslant C$ .

È lo stesso obiettivo, ma espresso in modo leggermente diverso, e qui il vincolo sulla dimensione di $\mathbf w$ è esplicito. Per risolverlo, definiamo la Lagrangiana $\mathcal L_p(\mathbf w, \mathbf e ; C)$ - questa è la forma primaria che contiene variabili primarie $\mathbf w$ ed $\mathbf e$ . Poi abbiamo ottimizzarlo WRT $\mathbf e$ e $\mathbf w$ . Per ottenere il duplice formulazione, mettiamo trovato $\mathbf e$ e $\mathbf w$ torna a $\mathcal L_p(\mathbf w, \mathbf e ; C)$ .

Quindi, $\mathcal L_p(\mathbf w, \mathbf e ; C) = \| \mathbf e \|^2 + \boldsymbol \beta^T (\mathbf y - X \mathbf w - \mathbf e) - \lambda \, (\| \mathbf w \|^2 - C)$ . Prendendo derivati tra $\mathbf w$ ed $\mathbf e$ , otteniamo $\mathbf e = \cfrac{1}{2} \boldsymbol \beta$ e $\mathbf w = \cfrac{1}{2 \lambda} X^T \boldsymbol \beta$ . Lasciando $\boldsymbol \alpha = \cfrac{1}{2 \lambda} \boldsymbol \beta$ , e mettendo $\mathbf e$ e $\mathbf w$ torna a $\mathcal L_p(\mathbf w, \mathbf e ; C)$ , otteniamo dual Lagrange $\mathcal L_d(\boldsymbol \alpha, \lambda; C) = -\lambda^2 \| \boldsymbol \alpha \|^2 + 2 \lambda \, \boldsymbol \alpha^T y - \lambda \| X^T \boldsymbol \alpha \| - \lambda C$ . Se prendiamo un derivato wrt $\boldsymbol \alpha$ , otteniamo $\boldsymbol \alpha = (XX^T - \lambda I)^{-1} \mathbf y$ - la stessa risposta della solita regressione di Kernel Ridge. Non è necessario prendere un derivato wr $\lambda$ - dipende da $C$ , che è un parametro di regolarizzazione - e rende anche unparametro di regolarizzazione $\lambda$ .

Quindi, aggiungi $\boldsymbol \alpha$ alla soluzione in forma primaria per $\mathbf w$ e ottieni $\mathbf w = \cfrac{1}{2 \lambda} X^T \boldsymbol \beta = X^T \boldsymbol \alpha$ . Pertanto, la doppia forma offre la stessa soluzione del solito Regressione della cresta, ed è solo un modo diverso per arrivare alla stessa soluzione.

Kernel Ridge Regression

I kernel vengono utilizzati per calcolare il prodotto interno di due vettori in alcuni spazi delle funzionalità senza nemmeno visitarlo. Possiamo vedere un kernel $k$ come $k(\mathbf x_1, \mathbf x_2) = \phi(\mathbf x_1)^T \phi(\mathbf x_2)$ , anche se non sappiamo cosa sia $\phi(\cdot)$ - sappiamo solo che esiste. Esistono molti kernel, ad esempio RBF, Polinonial, ecc.

Possiamo usare i kernel per rendere la nostra regressione della cresta non lineare. Supponiamo di avere un kernel $k(\mathbf x_1, \mathbf x_2) = \phi(\mathbf x_1)^T \phi(\mathbf x_2)$ . Sia $\Phi(X)$ una matrice in cui ogni riga è $\phi(\mathbf x_i)$ , ovvero $\Phi(X) = \begin{bmatrix} — \phi(\mathbf x_1) \,— \\ — \phi(\mathbf x_2) \,— \\ \vdots \\ — \phi(\mathbf x_n) \,— \end{bmatrix}$

Ora possiamo semplicemente prendere la soluzione per la regressione della cresta e sostituire ogni $X$ con $\Phi(X)$ : $\mathbf w = \Phi(X)^T \, (\Phi(X) \Phi(X)^T + \lambda \, I)^{-1} \mathbf y$ . Per un nuovo punto di dati invisibile $\mathbf x$ prevediamo suo valore nominale come $\hat y$ $\hat y= \mathbf \phi(\mathbf x)^T \Phi(X)^T \, (\Phi(X) \Phi(X)^T + \lambda \, I)^{-1} \mathbf y$ .

Innanzitutto, possiamo sostituire $\Phi(X) \Phi(X)^T$ con una matrice $K$ , calcolata come $(K)_{ij} = k(\mathbf x_i, \mathbf x_j)$ . Quindi, $\phi(\mathbf x)^T \Phi(X)^T$ è $\sum\limits_{i = 1}^n \phi(\mathbf x)^T \phi(\mathbf x_i) = \sum\limits_{i = 1}^n k(\mathbf x, \mathbf x_j)$ . Quindi qui siamo riusciti a esprimere ogni punto prodotto del problema in termini di kernel.

Infine, lasciando $\boldsymbol \alpha = (K + \lambda \, I)^{-1} \mathbf y$ (come in precedenza), si ottiene $\hat y= \sum\limits_{i = 1}^n \alpha_i k(\mathbf x, \mathbf x_j)$

Riferimenti

Apprendimento automatico I class presso TU Berlin
Elements of Statistical Learning, http://statweb.stanford.edu/~tibs/ElemStatLearn/
http://0agr.ru/wiki/index.php/Normal_Equation
http://stat.wikia.com/wiki/Kernel_Ridge_Regression
http://stat.rutgers.edu/home/tzhang/papers/ml02_dual.pdf
http://www.ics.uci.edu/~welling/classnotes/papers_class/Kernel-Ridge.pdf
http://www.cs.nyu.edu/~mohri/mls/lecture_8.pdf

— Alexey Grigorev
fonte

Sono impressionato dalla discussione ben organizzata. Tuttavia, il tuo primo riferimento a "valori anomali" mi ha confuso. Sembra i pesi

applica alle variabili piuttosto che i casi, così come esattamente avrebbe aiutato regressione ridge rendere la soluzione robusta per periferiche casi , come suggerito dal illustrazione?

w

$w$

— whuber

Ottima risposta, Alexey (anche se non lo definirei "parole semplici")! +1 senza fare domande. Ti piace scrivere in LaTeX, vero?

— Aleksandr Blekh,

Ho il sospetto che potresti confondere alcune cose di base qui. AFAIK, la regressione della cresta non è né una risposta né un modo di affrontare "osservazioni rumorose". OLS lo fa già. La regressione della cresta è uno strumento utilizzato per far fronte alla quasi collinearità tra i regressori. Tali fenomeni sono completamente diversi dal rumore nella variabile dipendente.

— whuber

+1 whuber. Alexey you are right it is overfitting -ie too many parameters for the available data - not really noise. [ and add enough dimensions for fixed sample size and 'any' data set becomes collinear]. So a better 2-d picture for RR would be all the points clustered around (0,1) with a single point at (1,0) ['justifying' the slope parameter]. See ESL fig 3.9,page 67 web.stanford.edu/~hastie/local.ftp/Springer/OLD/…. also look at primal cost function: to increase weight by 1 unit, error must decrease by

1 / λ

$1/\lambda$ unit

— seanv507

λ

$\lambda$

X^{T} X

$X^TX$