Risposte:
Vorrei suggerire la seguente guida teorica. Quando si utilizza il kernel gaussiano RBF, la superficie di separazione sarà basata su una combinazione di superfici a campana centrate su ciascun vettore di supporto. La larghezza di ciascuna superficie a campana sarà inversamente proporzionale a . Se questa larghezza è inferiore alla distanza minima in coppia per i tuoi dati, hai essenzialmente un overfitting. Se questa larghezza è maggiore della distanza massima in coppia per i tuoi dati, tutti i tuoi punti rientrano in una classe e non hai nemmeno buone prestazioni. Quindi la larghezza ottimale dovrebbe essere da qualche parte tra questi due estremi.
No, dipende essenzialmente dai dati. La ricerca della griglia (su iper-parametri trasformati in log) è un ottimo metodo se hai solo un piccolo numero di iperparametri da mettere a punto, ma non rendi la risoluzione della griglia troppo precisa o è probabile che tu riesca ad adattare troppo il tuning criterio. Per problemi con un numero maggiore di parametri del kernel, trovo che il metodo simplex Nelder-Mead funzioni bene.
pair-wise distance for your data
= semplice distanza euclidea dopo il ridimensionamento?