La mia situazione:
- campione di piccole dimensioni: 116
- variabile di risultato binario
- lungo elenco di variabili esplicative: 44
- le variabili esplicative non venivano dalla cima della mia testa; la loro scelta era basata sulla letteratura.
- la maggior parte dei casi nel campione e la maggior parte delle variabili hanno valori mancanti.
Approccio alla selezione della funzione scelta: LASSO
Il pacchetto glmnet di R non mi permette di eseguire la routine glmnet, apparentemente a causa dell'esistenza di valori mancanti nel mio set di dati. Sembra che ci siano vari metodi per gestire i dati mancanti, quindi vorrei sapere:
- LASSO impone delle restrizioni in termini di metodo di imputazione che posso usare?
- Quale sarebbe la scommessa migliore per il metodo di imputazione? Idealmente, ho bisogno di un metodo che potrei eseguire su SPSS (preferibilmente) o R.
AGGIORNAMENTO1: Da alcune delle risposte sottostanti è emerso che ho affrontato questioni di base prima di considerare i metodi di imputazione. Vorrei aggiungere qui nuove domande a riguardo. Sulla risposta che suggerisce la codifica come valore costante e la creazione di una nuova variabile per gestire i valori "non applicabili" e l'uso del lazo di gruppo:
- Diresti che se uso il gruppo LASSO, sarei in grado di utilizzare l'approccio suggerito ai predittori continui anche ai predittori categorici? In tal caso, suppongo che sarebbe equivalente alla creazione di una nuova categoria - sono diffidente sul fatto che ciò possa introdurre distorsioni.
- Qualcuno sa se il pacchetto glmnet di R supporta il gruppo LASSO? In caso contrario, qualcuno ne suggerirebbe un altro che lo fa in combinazione con la regressione logistica? Diverse opzioni che menzionano il gruppo LASSO possono essere trovate nel repository CRAN, qualche suggerimento del più appropriato per il mio caso? Forse SGL?
Questo è il seguito di una mia precedente domanda ( Come selezionare un sottoinsieme di variabili dalla mia lunga lista originale per eseguire analisi di regressione logistica? ).
OBS: Non sono uno statistico.