Gaussian RBF vs. kernel gaussiano

Qual è la differenza tra fare una regressione lineare con una funzione di base radiale gaussiana (RBF) e fare una regressione lineare con un kernel gaussiano?

regression normal-distribution kernel-trick

— user35965
fonte

Benvenuto nel sito, @ user35965. Si prega di precisare i tuoi acronimi. Con "RBF", intendi la funzione di base radiale ?

— gung - Ripristina Monica

Sì, questo è esattamente ciò che intendevo. Debitamente annotato per riferimento futuro.

— user35965

L'unica vera differenza è nella regolarizzazione che viene applicata. Una rete RBF regolarizzata utilizza in genere una penalità basata sulla norma quadrata dei pesi. Per la versione del kernel, la penalità è tipicamente sulla norma quadrata dei pesi del modello lineare implicitamente costruito nello spazio delle caratteristiche indotto dal kernel. La differenza pratica chiave che questo fa è che la penalità per la rete RBF dipende dai centri della rete RBF (e quindi dal campione di dati usati) mentre per il kernel RBF, lo spazio delle caratteristiche indotte è lo stesso indipendentemente dal campione di dati, quindi la penalità è una penalità sulla funzione del modello, piuttosto che sulla sua parametrizzazione .

In altre parole, per entrambi i modelli abbiamo

$f(\vec{x}') = \sum_{i=1}^\ell \alpha_i \mathcal{K}(\vec{x}_i, \vec{x}')$

Per l'approccio della rete RBF, il criterio di formazione è

$L = \sum_{i=1}^\ell (y_i - f(\vec{x}_i))^2 + \lambda \|\alpha\|^2$

Per il metodo del kernel RBF, abbiamo che e . Ciò significa che una penalità della norma quadrata sui pesi del modello nello spazio delle caratteristiche indotte, può essere scritta in termini di doppi parametri, come $\mathcal{K}(\vec{x},\vec{x}') = \phi(\vec{x})\cdot\phi(\vec{x}')$ $\vec{w} = \sum_{i=1}^\ell \alpha_i\phi(\vec{x}_i)$ $\vec{w}$ $\vec{\alpha}$

$\|\vec{w}\|^2 = \vec{\alpha}^T\matrix{K}\vec{\alpha},$

dove è il matix delle valutazioni a coppie del kernel per tutti i modelli di allenamento. Il criterio di addestramento è quindi $\matrix{K}$

. $L = \sum_{i=1}^\ell (y_i - f(\vec{x}_i))^2 + \lambda \vec{\alpha}^T\matrix{K}\vec{\alpha}$

L'unica differenza tra i due modelli è la nel termine di regolarizzazione. $\matrix{K}$

Il principale vantaggio teorico dell'approccio del kernel è che consente di interpretare un modello non lineare come un modello lineare a seguito di una trasformazione non lineare fissa che non dipende dal campione di dati. Pertanto, qualsiasi teoria di apprendimento statistico esistente per i modelli lineari si trasferisce automaticamente alla versione non lineare. Tuttavia, tutto si interrompe non appena si tenta di ottimizzare i parametri del kernel, a quel punto torniamo praticamente allo stesso punto teoricamente parlando delle reti neurali RBF (e MLP). Quindi il vantaggio teorico non è forse così grande come vorremmo.

È probabile che faccia una vera differenza in termini di prestazioni? Probabilmente non molto. I teoremi "no free lunch" suggeriscono che non esiste una superiorità a priori di alcun algoritmo rispetto a tutti gli altri, e la differenza nella regolarizzazione è abbastanza sottile, quindi in caso di dubbio provate entrambi e scegliete il meglio in base, ad esempio, alla validazione incrociata.

— Dikran Marsupial
fonte

‖ \vec{α} ‖^{2} = {\vec{α}}^{T} \begin{matrix} I \end{matrix} \vec{α}

$\|\vec{\alpha}\|^2 = \vec{\alpha}^T\matrix{I}\vec{\alpha}$

{\vec{α}}^{T} \begin{matrix} K \end{matrix} \vec{α}

$\vec{\alpha}^T\matrix{K}\vec{\alpha}$

K

$K$

I

$I$

K

$K$

@CagdasOzgenc Il modo in cui lo guardo è che

K

$K$

ϕ (x)

$\phi(x)$

K

$K$

‖ {\vec{α}}^{'} ‖^{2}

$\|\vec{\alpha}'\|^2$

{\vec{α}}^{T} \begin{matrix} K \end{matrix} \vec{α} = μ {\vec{α}}^{T} \begin{matrix} I \end{matrix} \vec{α}

$\vec{\alpha}^T\matrix{K}\vec{\alpha} = \mu\vec{\alpha}^T\matrix{I}\vec{\alpha}$

— Dikran Marsupial,

Grazie. Rifletterò su questo ti ricontatterò. Al momento sembra che io non sia al tuo livello di comprensione. Devo fare di più pensando :).

— Cagdas Ozgenc,

@CagdasOzgenc nessun problema, la maggior parte dei testi standard lo spiegano attraverso funzioni autonome della funzione del kernel, il che mi fa male anche al cervello! ; o)

— Dikran Marsupial,