L'imputazione multipla è abbastanza semplice quando si dispone di un modello lineare a priori che si desidera stimare. Tuttavia, le cose sembrano essere un po 'più complicate quando si vuole effettivamente fare una selezione del modello (ad esempio, trovare il set "migliore" di variabili predittive da un set più ampio di variabili candidate - sto pensando specificamente a LASSO e ai polinomi frazionari usando R).
Un'idea sarebbe quella di adattare il modello nei dati originali con valori mancanti, quindi rivalutare questo modello nei set di dati MI e combinare le stime normalmente. Tuttavia, questo sembra problematico poiché ci si aspetta una distorsione (o altrimenti perché l'MI in primo luogo?), Che potrebbe portare a selezionare un modello "sbagliato" dall'inizio.
Un'altra idea sarebbe quella di passare attraverso qualsiasi processo di selezione del modello che stai usando in ogni set di dati MI - ma come combineresti i risultati se includessero insiemi di variabili differenti?
Un pensiero che avevo era quello di impilare un set di set di dati MI e analizzarli come un unico set di dati che sarebbe quindi possibile utilizzare per adattare un singolo modello "migliore" e includere un effetto casuale per tenere conto del fatto che si stanno utilizzando misure ripetute per ogni osservazione.
Sembra ragionevole? O forse incredibilmente ingenuo? Qualsiasi suggerimento su questo problema (selezione del modello con imputazione multipla) sarebbe molto apprezzato.