Ho cercato qui vari thread, ma non credo che la mia domanda esatta abbia una risposta.
Ho un set di dati di circa 50.000 studenti e il loro tempo di abbandono. Eseguirò una regressione dei rischi proporzionale con un gran numero di potenziali covariate. Farò anche una regressione logistica sull'abbandono / permanenza. L'obiettivo principale sarà la previsione per nuove coorti di studenti, ma non abbiamo motivo di credere che varieranno molto dalla coorte dell'anno scorso.
Di solito, non ho un tale lusso di dati e modellare il modello con una sorta di penalizzazione, ma questa volta ho pensato di dividere la formazione int e testare i set di dati e quindi fare la selezione variabile sul set di training; quindi utilizzando il set di dati di test per stimare i parametri e la capacità predittiva.
È una buona strategia? In caso contrario, cosa è meglio?
Citazioni benvenute ma non necessarie.