Risposte:
Una soluzione approssimativa può davvero essere trovata per il lazo usando metodi di grado inferiore. Ad esempio, supponiamo di voler ridurre al minimo la seguente funzione di perdita:
Il gradiente del termine di penalità è per e per , ma il termine di penalità non è distinguibile a . Invece, possiamo usare il subgradient , che è lo stesso ma ha un valore di per .
Il subgradient corrispondente per la funzione di perdita è:
Possiamo minimizzare la funzione di perdita usando un approccio simile alla discesa del gradiente, ma usando il sottogradiente (che è uguale al gradiente ovunque tranne , dove il gradiente non è definito). La soluzione può essere molto vicina alla vera soluzione lazo, ma potrebbe non contenere zeri esatti: laddove i pesi avrebbero dovuto essere pari a zero, prendono invece valori estremamente piccoli. Questa mancanza di vera scarsità è una delle ragioni per non usare metodi subgradient per il lazo. I solutori dedicati sfruttano la struttura del problema per produrre soluzioni veramente sparse in modo computazionalmente efficiente. Questo postafferma che, oltre a produrre soluzioni sparse, i metodi dedicati (compresi i metodi del gradiente prossimale) hanno tassi di convergenza più rapidi rispetto ai metodi di livello inferiore. Dà alcuni riferimenti.