Un po 'più di informazioni; supporre che
- sai in anticipo quante variabili selezionare e che hai impostato la penalità di complessità nella procedura LARS in modo tale da avere esattamente quante variabili con coefficienti diversi da 0,
- i costi di calcolo non sono un problema (il numero totale di variabili è piccolo, diciamo 50),
- che tutte le variabili (y, x) sono continue.
In quale contesto il modello LARS (ovvero l'adattamento OLS di quelle variabili che hanno coefficienti non zero nell'adattamento LARS) sarebbe molto diverso da un modello con lo stesso numero di coefficienti ma trovato attraverso una ricerca esaustiva (a la regsubsets ())?
Modifica: sto usando 50 variabili e 250 osservazioni con i coefficienti reali ricavati da un gaussiano standard ad eccezione di 10 delle variabili con coefficienti "reali" pari a 0 (e tutte le caratteristiche sono fortemente correlate tra loro). Queste impostazioni ovviamente non sono buone in quanto le differenze tra i due gruppi di variabili selezionate sono minime. Questa è davvero una domanda su quale tipo di configurazione dei dati si dovrebbe simulare per ottenere il maggior numero di differenze.