Sto per laurearmi dal mio Master e ho imparato l'apprendimento automatico e ho svolto progetti di ricerca con esso. Mi chiedo quali siano le migliori pratiche del settore quando si eseguono attività di machine learning con Big Dataset (come 100s GB o TB). Apprezzo se i colleghi data scientist possano condividere la loro esperienza. Ecco le mie domande:
- Ovviamente, set di dati molto grandi richiedono più tempo per l'allenamento (possono essere giorni o settimane). Molte volte abbiamo bisogno di formare vari modelli (SVM, Neural Network, ecc.) Per confrontare e trovare modelli di prestazioni migliori. Sospetto, nei progetti del settore, vogliamo che i risultati siano il più rapidi possibile ma producano le migliori prestazioni. Ci sono suggerimenti per ridurre i tempi di addestramento e test? Se si consiglia di sottoimpostare il set di dati, sarò interessato a imparare il modo migliore per impostare il sottoinsieme del set di dati per coprire tutti o la maggior parte degli scenari del set di dati.
- Sappiamo che l'esecuzione della convalida incrociata è migliore in quanto può ridurre l'eccessivo adattamento. Tuttavia, anche la convalida incrociata richiede tempo per la formazione e il modello addestrato con la convalida incrociata potrebbe non essere implementato direttamente (parlando dall'esperienza python sklearn: ho bisogno di addestrare di nuovo il modello con set di dati dopo il test di convalida incrociata per essere implementato). Normalmente esegui la convalida incrociata nei tuoi progetti sui big data o riesci a cavartela con la divisione treno-test?
Apprezzo il feedback.