Intro:
Ho un set di dati con un classico "grande problema p, piccolo problema". Il numero di campioni disponibili n = 150 mentre il numero di possibili predittori p = 400. Il risultato è una variabile continua.
Voglio trovare i descrittori più "importanti", cioè quelli che sono i migliori candidati per spiegare il risultato e aiutare a costruire una teoria.
Dopo una ricerca su questo argomento ho scoperto che LASSO e Elastic Net sono comunemente usati per il caso di p grande, n piccolo. Alcuni dei miei predittori sono altamente correlati e voglio preservare i loro raggruppamenti nella valutazione dell'importanza, quindi ho optato per Elastic Net . Suppongo di poter utilizzare i valori assoluti dei coefficienti di regressione come misura di importanza (correggimi se sbaglio; il mio set di dati è standardizzato).
Problema:
Dato che il mio numero di campioni è piccolo, come posso ottenere un modello stabile?
Il mio approccio attuale è quello di trovare i migliori parametri di ottimizzazione (lambda e alfa) in una ricerca della griglia sul 90% del set di dati con punteggio MSE medio di validazione incrociata di 10 volte. Quindi alleno il modello con i migliori parametri di ottimizzazione sull'intero 90% del set di dati. Sono in grado di valutare il mio modello usando R al quadrato sul 10% del set di dati (che rappresentano solo 15 campioni).
Eseguendo ripetutamente questa procedura, ho riscontrato una grande varianza nelle valutazioni R al quadrato. Inoltre, il numero di predittori diversi da zero varia e i loro coefficienti.
Come posso ottenere una valutazione più stabile dell'importanza dei predittori e una valutazione più stabile delle prestazioni del modello finale?
Posso eseguire ripetutamente la mia procedura per creare un numero di modelli e quindi coefficienti di regressione medi? O dovrei usare il numero di occorrenze di un predittore nei modelli come punteggio di importanza?
Attualmente, ottengo circa 40-50 predittori non azzerati. Devo penalizzare maggiormente il numero di predittori per una migliore stabilità?