Ho usato il pacchetto caret in R per costruire modelli predittivi per la classificazione e la regressione. Caret fornisce un'interfaccia unificata per mettere a punto gli iperparametri del modello mediante validazione incrociata o avvio del boot. Ad esempio, se stai costruendo un semplice modello di "vicini più vicini" per la classificazione, quanti vicini dovresti usare? 2? 10? 100? Caret ti aiuta a rispondere a questa domanda ricampionando i tuoi dati, provando diversi parametri e quindi aggregando i risultati per decidere quale produce la migliore precisione predittiva.
Mi piace questo approccio perché fornisce una solida metodologia per la scelta degli iperparametri del modello e, una volta scelti gli iperparametri finali, fornisce una stima incrociata di quanto sia buono il modello, usando l'accuratezza per i modelli di classificazione e RMSE per i modelli di regressione.
Ora ho alcuni dati di serie temporali per i quali voglio costruire un modello di regressione, probabilmente usando una foresta casuale. Qual è una buona tecnica per valutare la precisione predittiva del mio modello, data la natura dei dati? Se le foreste casuali non si applicano davvero ai dati delle serie temporali, qual è il modo migliore per costruire un modello di ensemble accurato per l'analisi delle serie temporali?