Questa domanda potrebbe essere troppo aperta per ottenere una risposta definitiva, ma speriamo di no.
Gli algoritmi di apprendimento automatico, come SVM, GBM, Random Forest ecc., Generalmente hanno alcuni parametri gratuiti che, al di là di una guida empirica, devono essere adattati a ciascun set di dati. Questo viene generalmente fatto con una sorta di tecnica di ricampionamento (bootstrap, CV ecc.) Per adattarsi all'insieme di parametri che danno il miglior errore di generalizzazione.
La mia domanda è: puoi andare troppo lontano qui? Le persone parlano di fare ricerche sulla griglia in questo modo, ma perché non trattarlo semplicemente come un problema di ottimizzazione e approfondire il set di parametri migliore possibile? Ho chiesto informazioni su alcuni meccanismi di questo in questa domanda, ma non ha ricevuto molta attenzione. Forse la domanda è stata posta male, ma forse la domanda stessa rappresenta un cattivo approccio che le persone generalmente non fanno?
Ciò che mi preoccupa è la mancanza di regolarizzazione. Potrei scoprire ricampionando che il miglior numero di alberi da crescere in un GBM per questo set di dati è 647 con una profondità di interazione di 4, ma quanto posso essere sicuro che ciò sarà vero per i nuovi dati (supponendo che la nuova popolazione è identico al set di allenamento)? Senza un ragionevole valore da "restringere" al (o se lo desideri, nessuna informazione preventiva informativa) il ricampionamento sembra il meglio che possiamo fare. Non sento parlare di questo, quindi mi chiedo se c'è qualcosa che mi manca.
Ovviamente c'è un grande costo computazionale associato a fare molte molte iterazioni per spremere ogni ultimo bit di potenza predittiva da un modello, quindi chiaramente questo è qualcosa che faresti se avessi il tempo / grugnito per fare l'ottimizzazione e ogni bit di miglioramento delle prestazioni è prezioso.