LASSO differisce dalla selezione del miglior sottoinsieme in termini di penalizzazione e dipendenza dal percorso.
Nella selezione del miglior sottoinsieme, presumibilmente è stato utilizzato CV per identificare che 2 predittori offrivano le migliori prestazioni. Durante il CV, i coefficienti di regressione a grandezza intera senza penalità sarebbero stati utilizzati per valutare quante variabili includere. Una volta presa la decisione di utilizzare 2 predittori, tutte le combinazioni di 2 predittori sarebbero state confrontate sull'insieme completo di dati, in parallelo, per trovare i 2 per il modello finale. A quei 2 predittori finali verrebbero dati i loro coefficienti di regressione a grandezza naturale, senza penalità, come se fossero state le uniche scelte da sempre.
Puoi pensare a LASSO come a partire da una grande penalità sulla somma delle grandezze dei coefficienti di regressione, con la penalità gradualmente allentata. Il risultato è che le variabili entrano una alla volta, con una decisione presa in ciascun punto durante il rilassamento se è più prezioso aumentare i coefficienti delle variabili già presenti nel modello o aggiungere un'altra variabile. Ma quando si arriva, per esempio, a un modello a 2 variabili, i coefficienti di regressione consentiti da LASSO saranno di entità inferiore rispetto a quelle che le stesse variabili avrebbero nelle regressioni non penalizzate standard utilizzate per confrontare i modelli a 2 variabili e 3 variabili in selezione del miglior sottoinsieme.
Questo può essere pensato per facilitare l'inserimento di nuove variabili in LASSO rispetto alla selezione del sottoinsieme migliore. Dal punto di vista euristico, LASSO scambia coefficienti di regressione potenzialmente inferiori al reale contro l'incertezza in quante variabili dovrebbero essere incluse. Ciò tenderebbe ad includere più variabili in un modello LASSO e prestazioni potenzialmente peggiori per LASSO se si fosse sicuri che fossero necessarie solo 2 variabili. Ma se sapessi già quante variabili predittive dovrebbero essere incluse nel modello corretto, probabilmente non useresti LASSO.
Finora nulla è dipeso dalla collinearità, che porta diversi tipi di arbitrarietà nella selezione variabile nel migliore sottoinsieme rispetto a LASSO. In questo esempio, best-subset ha esaminato tutte le possibili combinazioni di 2 predittori e ha scelto il migliore tra quelle combinazioni. Quindi vincono i migliori 2 per quel particolare campione di dati.
LASSO, con la sua dipendenza dal percorso nell'aggiungere una variabile alla volta, significa che una scelta precoce di una variabile può influenzare quando altre variabili ad essa correlate entrano più avanti nel processo di rilassamento. È anche possibile che una variabile entri in anticipo e poi che il suo coefficiente LASSO diminuisca quando entrano altre variabili correlate.
In pratica, la scelta tra predittori correlati nei modelli finali con entrambi i metodi dipende fortemente dal campione, come può essere verificato ripetendo questi processi di costruzione del modello su campioni bootstrap con gli stessi dati. Se non ci sono troppi predittori e il tuo interesse principale è la previsione su nuovi set di dati, la regressione della cresta, che tende a mantenere tutti i predittori, potrebbe essere una scelta migliore.