Qual è la differenza tra fare una regressione lineare con una funzione di base radiale gaussiana (RBF) e fare una regressione lineare con un kernel gaussiano?
Qual è la differenza tra fare una regressione lineare con una funzione di base radiale gaussiana (RBF) e fare una regressione lineare con un kernel gaussiano?
Risposte:
L'unica vera differenza è nella regolarizzazione che viene applicata. Una rete RBF regolarizzata utilizza in genere una penalità basata sulla norma quadrata dei pesi. Per la versione del kernel, la penalità è tipicamente sulla norma quadrata dei pesi del modello lineare implicitamente costruito nello spazio delle caratteristiche indotto dal kernel. La differenza pratica chiave che questo fa è che la penalità per la rete RBF dipende dai centri della rete RBF (e quindi dal campione di dati usati) mentre per il kernel RBF, lo spazio delle caratteristiche indotte è lo stesso indipendentemente dal campione di dati, quindi la penalità è una penalità sulla funzione del modello, piuttosto che sulla sua parametrizzazione .
In altre parole, per entrambi i modelli abbiamo
Per l'approccio della rete RBF, il criterio di formazione è
Per il metodo del kernel RBF, abbiamo che e → w = ∑ ℓ i = 1 α i ϕ ( → x i ) . Ciò significa che una penalità della norma quadrata sui pesi del modello nello spazio delle caratteristiche indotte, → w può essere scritta in termini di doppi parametri, → α come
dove è il matix delle valutazioni a coppie del kernel per tutti i modelli di allenamento. Il criterio di addestramento è quindi
.
L'unica differenza tra i due modelli è la nel termine di regolarizzazione.
Il principale vantaggio teorico dell'approccio del kernel è che consente di interpretare un modello non lineare come un modello lineare a seguito di una trasformazione non lineare fissa che non dipende dal campione di dati. Pertanto, qualsiasi teoria di apprendimento statistico esistente per i modelli lineari si trasferisce automaticamente alla versione non lineare. Tuttavia, tutto si interrompe non appena si tenta di ottimizzare i parametri del kernel, a quel punto torniamo praticamente allo stesso punto teoricamente parlando delle reti neurali RBF (e MLP). Quindi il vantaggio teorico non è forse così grande come vorremmo.
È probabile che faccia una vera differenza in termini di prestazioni? Probabilmente non molto. I teoremi "no free lunch" suggeriscono che non esiste una superiorità a priori di alcun algoritmo rispetto a tutti gli altri, e la differenza nella regolarizzazione è abbastanza sottile, quindi in caso di dubbio provate entrambi e scegliete il meglio in base, ad esempio, alla validazione incrociata.