Da altri post ho ottenuto che non si può attribuire "importanza" o "significato" alle variabili predittive che entrano in un modello di lazo perché il calcolo dei valori p di tali variabili o deviazioni standard è ancora in corso.
In base a tale ragionamento, è corretto affermare che NON PUO 'dire che le variabili ESCLUSE dal modello di lazo siano "irrilevanti" o "insignificanti"?
In tal caso, cosa posso effettivamente rivendicare sulle variabili che sono escluse o incluse in un modello lazo? Nel mio caso specifico, ho selezionato il parametro di sintonia lambda ripetendo 10 volte la convalida incrociata 100 volte al fine di ridurre l'abbandono e la media delle curve di errore.
AGGIORNAMENTO1: Ho seguito un suggerimento di seguito e ho eseguito nuovamente il lazo usando esempi bootstrap. Ho provato 100 campioni (quella quantità era ciò che il mio computer poteva gestire dall'oggi al domani) e sono emersi alcuni schemi. 2 delle mie 41 variabili sono entrate nel modello più del 95% delle volte, 3 variabili oltre il 90% e 5 variabili oltre l'85%. Quelle 5 variabili sono tra le 9 che sono entrate nel modello quando l'avevo eseguito con il campione originale ed erano quelle con i valori di coefficiente più alti di allora. Se eseguo lazo con diciamo 1000 campioni bootstrap e quei modelli vengano mantenuti, quale sarebbe il modo migliore per presentare i miei risultati?
1000 campioni bootstrap suonano abbastanza? (La mia dimensione del campione è 116)
Dovrei elencare tutte le variabili e la frequenza con cui entrano nel modello, e quindi sostenere che quelle che entrano più frequentemente hanno maggiori probabilità di essere significative?
È per quanto posso andare con le mie affermazioni? Perché è un work in progress (vedi sopra) non posso usare un valore di cut-off, giusto?
AGGIORNAMENTO2: Seguendo un suggerimento di seguito, ho calcolato quanto segue: in media, il 78% delle variabili nel modello originale ha inserito i modelli generati per i 100 campioni bootstrap. D'altra parte, solo il 41% per il contrario. Ciò ha a che fare in gran parte con il fatto che i modelli generati per i campioni bootstrap tendevano a includere molte più variabili (17 in media) rispetto al modello originale (9).
AGGIORNAMENTO3: Se potessi aiutarmi a interpretare i risultati ottenuti dal bootstrap e dalla simulazione Monte Carlo, dai un'occhiata a questo altro post.