Ho già sentito la seguente espressione:
"L'ottimizzazione è la radice di ogni male nelle statistiche".
Ad esempio, la risposta migliore in questa discussione fa questa affermazione in riferimento al pericolo di ottimizzazione troppo aggressiva durante la selezione del modello.
La mia prima domanda è la seguente: questa citazione è attribuibile a qualcuno in particolare? (ad es. nella letteratura statistica)
Da quello che ho capito, la dichiarazione si riferisce ai rischi di overfitting. La saggezza tradizionale direbbe che una corretta validazione incrociata combatte già contro questo problema, ma sembra che ci sia molto di più in questo problema.
Gli statistici e i professionisti della ML dovrebbero essere cauti nell'ottimizzare eccessivamente i propri modelli anche se aderiscono a protocolli di validazione incrociata rigorosi (ad es. 100 CV 10 volte nidificati)? In tal caso, come facciamo a sapere quando interrompere la ricerca del modello "migliore"?