Gaussian RBF vs. kernel gaussiano


18

Qual è la differenza tra fare una regressione lineare con una funzione di base radiale gaussiana (RBF) e fare una regressione lineare con un kernel gaussiano?


Benvenuto nel sito, @ user35965. Si prega di precisare i tuoi acronimi. Con "RBF", intendi la funzione di base radiale ?
gung - Ripristina Monica

2
Sì, questo è esattamente ciò che intendevo. Debitamente annotato per riferimento futuro.
user35965

Risposte:


19

L'unica vera differenza è nella regolarizzazione che viene applicata. Una rete RBF regolarizzata utilizza in genere una penalità basata sulla norma quadrata dei pesi. Per la versione del kernel, la penalità è tipicamente sulla norma quadrata dei pesi del modello lineare implicitamente costruito nello spazio delle caratteristiche indotto dal kernel. La differenza pratica chiave che questo fa è che la penalità per la rete RBF dipende dai centri della rete RBF (e quindi dal campione di dati usati) mentre per il kernel RBF, lo spazio delle caratteristiche indotte è lo stesso indipendentemente dal campione di dati, quindi la penalità è una penalità sulla funzione del modello, piuttosto che sulla sua parametrizzazione .

In altre parole, per entrambi i modelli abbiamo

f(x)=i=1αiK(xi,x)

Per l'approccio della rete RBF, il criterio di formazione è

L=Σio=1(yio-f(Xio))2+λα2

Per il metodo del kernel RBF, abbiamo che e w = i = 1 α i ϕ ( x i ) . Ciò significa che una penalità della norma quadrata sui pesi del modello nello spazio delle caratteristiche indotte, w può essere scritta in termini di doppi parametri, α comeK(X,X')=φ(X)φ(X')w=Σio=1αioφ(Xio)wα

w2=αTKα,

dove è il matix delle valutazioni a coppie del kernel per tutti i modelli di allenamento. Il criterio di addestramento è quindiK

.L=i=1(yif(xi))2+λαTKα

L'unica differenza tra i due modelli è la nel termine di regolarizzazione.K

Il principale vantaggio teorico dell'approccio del kernel è che consente di interpretare un modello non lineare come un modello lineare a seguito di una trasformazione non lineare fissa che non dipende dal campione di dati. Pertanto, qualsiasi teoria di apprendimento statistico esistente per i modelli lineari si trasferisce automaticamente alla versione non lineare. Tuttavia, tutto si interrompe non appena si tenta di ottimizzare i parametri del kernel, a quel punto torniamo praticamente allo stesso punto teoricamente parlando delle reti neurali RBF (e MLP). Quindi il vantaggio teorico non è forse così grande come vorremmo.

È probabile che faccia una vera differenza in termini di prestazioni? Probabilmente non molto. I teoremi "no free lunch" suggeriscono che non esiste una superiorità a priori di alcun algoritmo rispetto a tutti gli altri, e la differenza nella regolarizzazione è abbastanza sottile, quindi in caso di dubbio provate entrambi e scegliete il meglio in base, ad esempio, alla validazione incrociata.


1
α2=αTIααTKαKIK

@CagdasOzgenc Il modo in cui lo guardo è che Kϕ(x)

Kα2αTKα=μαTIα
Dikran Marsupial,

Grazie. Rifletterò su questo ti ricontatterò. Al momento sembra che io non sia al tuo livello di comprensione. Devo fare di più pensando :).
Cagdas Ozgenc,

@CagdasOzgenc nessun problema, la maggior parte dei testi standard lo spiegano attraverso funzioni autonome della funzione del kernel, il che mi fa male anche al cervello! ; o)
Dikran Marsupial,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.