A pagina 223 in Un'introduzione all'apprendimento statistico , gli autori sintetizzano le differenze tra regressione della cresta e lazo. Forniscono un esempio (Figura 6.9) di quando "il lazo tende a sovraperformare la regressione della cresta in termini di distorsione, varianza e MSE".
Capisco perché il lazo può essere desiderabile: si traduce in soluzioni sparse poiché riduce molti coefficienti a 0, risultando in modelli semplici e interpretabili. Ma non capisco come possa sovraperformare la cresta quando sono interessanti solo le previsioni (cioè come sta ottenendo un MSE sostanzialmente inferiore nell'esempio?).
Con la cresta, se molti predittori non hanno quasi alcun effetto sulla risposta (con alcuni predittori che hanno un grande effetto), i loro coefficienti non saranno semplicemente ridotti a un piccolo numero molto vicino allo zero ... risultando in qualcosa di molto simile al lazo ? Quindi perché il modello finale dovrebbe avere prestazioni peggiori del lazo?