So che per accedere alle prestazioni del classificatore devo dividere i dati in training / test set. Ma leggendo questo :
Quando si valutano impostazioni diverse ("iperparametri") per gli stimatori, come l'impostazione C che deve essere impostata manualmente per un SVM, sussiste il rischio di un overfitting sul set di test perché i parametri possono essere modificati fino a quando lo stimatore non funziona in modo ottimale. In questo modo, la conoscenza del set di test può "infiltrarsi" nel modello e le metriche di valutazione non riportano più sulle prestazioni di generalizzazione. Per risolvere questo problema, un'altra parte del set di dati può essere considerata come un cosiddetto "set di convalida": la formazione procede sul set di formazione, dopodiché la valutazione viene eseguita sul set di convalida e quando l'esperimento sembra avere esito positivo , la valutazione finale può essere eseguita sul set di test.
Vedo che viene introdotto un altro (terzo) set di validazione che è giustificato dal sovradimensionamento del set di test durante la messa a punto degli iperparametri.
Il problema è che non riesco a capire come possa apparire questo overfitting e quindi non riesca a capire la giustificazione del terzo set.