Ho alcuni modelli predittivi di cui vorrei eseguire il back-test delle prestazioni (ovvero, portare il mio set di dati, "riavvolgerlo" a un punto precedente nel tempo e vedere come il modello si sarebbe comportato in modo prospettico).
Il problema è che alcuni dei miei modelli sono stati creati tramite un processo interattivo. Ad esempio, seguendo i consigli nelle Strategie di modellizzazione della regressione di Frank Harrell , in un modello ho usato spline cubiche ristrette per gestire possibili associazioni non lineari tra funzionalità e risposta. Ho assegnato i gradi di libertà di ogni spline sulla base di una combinazione di conoscenza del dominio e misure univariate di forza dell'associazione. Ma i gradi di libertà che desidero consentire al mio modello dipendono ovviamente dalle dimensioni del set di dati, che varia notevolmente durante il backtest. Se non desidero selezionare manualmente i gradi di libertà separatamente per ogni volta in cui il modello viene testato nuovamente, quali sono le altre opzioni?
Per un altro esempio, sto attualmente lavorando al rilevamento anomalo tramite la ricerca di punti con leva elevata. Se fossi felice di farlo a mano, guarderei semplicemente ogni punto di dati ad alta leva, verificherei che i dati fossero puliti e filtrerei o pulirli manualmente. Ma questo si basa su un sacco di conoscenza del dominio, quindi non so come automatizzare il processo.
Gradirei consigli e soluzioni sia (a) al problema generale dell'automazione delle parti interattive del processo di costruzione del modello, sia (b) consigli specifici per questi due casi. Grazie!