Sto cercando di fare la selezione del modello su alcuni predittori candidati usando LASSO con un risultato continuo. L'obiettivo è selezionare il modello ottimale con le migliori prestazioni di predizione, che di solito può essere eseguito mediante convalida incrociata K-fold dopo aver ottenuto un percorso di soluzione dei parametri di ottimizzazione da LASSO. Il problema qui è che i dati provengono da un complesso progetto di indagine a più stadi (NHANES), con campionamento e stratificazione dei cluster. La parte di stima non è difficile poiché glmnet
in R può prendere pesi di campionamento. Ma la parte di convalida incrociata mi è meno chiara poiché le osservazioni ora non sono più evitate, e come può la procedura spiegare i pesi di campionamento che rappresentano una popolazione finita?
Quindi le mie domande sono:
1) Come eseguire la convalida incrociata K-fold con dati di rilevamento complessi per selezionare il parametro di ottimizzazione ottimale? Più specificamente, come suddividere in modo appropriato i dati di esempio in set di training e validazione? E come definire la stima dell'errore di previsione?
2) Esiste un modo alternativo per selezionare il parametro di ottimizzazione ottimale?