Ho una domanda specifica sulla convalida nella ricerca sull'apprendimento automatico.
Come sappiamo, il regime di apprendimento automatico chiede ai ricercatori di addestrare i loro modelli sui dati di addestramento, scegliere tra i modelli candidati per set di validazione e riportare l'accuratezza sul set di test. In uno studio molto rigoroso, il set di test può essere utilizzato solo una volta. Tuttavia, non può mai essere lo scenario di ricerca, perché dobbiamo migliorare le nostre prestazioni fino a quando l'accuratezza del test non è migliore dei risultati all'avanguardia prima di poter pubblicare (o persino inviare) un documento.
Ora arriva il problema. Diciamo che il 50% è il risultato più all'avanguardia e il mio modello in genere può raggiungere una precisione del 50--51, che è in media migliore.
Tuttavia, la mia migliore precisione di convalida (52%) produce una precisione di test molto bassa, ad esempio il 49%. Quindi, devo segnalare il 49% delle prestazioni complessive se non riesco a migliorare ulteriormente la convalida secondo me, che penso non abbia alcuna speranza. Questo mi impedisce davvero di studiare il problema, ma non ha importanza per i miei colleghi, perché non vedono l'accordo del 52%, che penso sia un valore anomalo.
Quindi, come si comportano le persone nella loro ricerca?
la validazione di ps k-fold non è di aiuto, perché la stessa situazione può ancora accadere.