Il vantaggio principale della regressione graduale è che è computazionalmente efficiente. Tuttavia, le sue prestazioni sono generalmente peggiori rispetto a metodi alternativi. Il problema è che è troppo avido. Facendo una dura selezione sul prossimo regressore e "congelando" il peso, compie scelte localmente ottimali in ogni fase, ma non ottimali in generale. E non può tornare indietro per rivedere le sue scelte passate.
Per quanto ne so, la regressione graduale è generalmente caduta in disgrazia rispetto alla regressione regolarizzata (LASSO), che tende a produrre soluzioni migliori.l1
Tibshirani (1996) . Restringimento di regressione e la selezione tramite il lazo
LASSO penalizza la norma dei pesi, che induce la scarsità nella soluzione (molti pesi sono costretti a zero). Questo esegue la selezione delle variabili (le variabili 'rilevanti' possono avere pesi diversi da zero). Il grado di scarsità è controllato dal termine di penalità e per selezionarlo è necessario utilizzare alcune procedure (la convalida incrociata è una scelta comune). LASSO è più intensivo dal punto di vista computazionale rispetto alla regressione graduale, ma esistono numerosi algoritmi efficienti. Alcuni esempi sono la regressione dell'angolo minimo ( LARS ) e un approccio basato sulla discesa delle coordinate .l1
Un approccio simile a quello che hai suggerito in (2) è chiamato ricerca della corrispondenza ortogonale. È una generalizzazione della ricerca della corrispondenza, che è il nome della regressione graduale nella letteratura sull'elaborazione del segnale.
Pati et al. (1993) . Ricerca di matching ortogonale: approssimazione di funzioni ricorsive con applicazioni alla decomposizione wavelet
Ad ogni iterazione, il successivo miglior regressore viene aggiunto al set attivo. Quindi, vengono ricalcolati i pesi per tutti i regressori nel set attivo. A causa della fase di ponderazione, questo approccio è meno avido (e ha prestazioni migliori) rispetto alla normale ricerca della corrispondenza / regressione graduale. Tuttavia, utilizza ancora una ricerca avida euristica.
Tutti questi approcci (regressione graduale, LASSO e ricerca della corrispondenza ortogonale) possono essere considerati approssimazioni del seguente problema:
minw∥y−Xw∥22s.t. ∥w∥0≤c
In un contesto di regressione, le colonne di corrispondono alle variabili indipendenti e alla variabile dipendente. Nell'elaborazione del segnale, le colonne di corrispondono alle funzioni di base e è un segnale da approssimare. L'obiettivo è trovare un insieme sparso di pesi che dia la migliore (minima quadratura) approssimazione di . La norma conta semplicemente il numero di voci diverse da zero in . Sfortunatamente, questo problema è NP-difficile, quindi gli algoritmi di approssimazione devono essere utilizzati nella pratica. La regressione graduale e la ricerca della corrispondenza ortogonale tentano di risolvere il problema utilizzando una strategia di ricerca avida. LASSO riformula il problema usando un rilassamento delXyXywyl0wl0norma alla norma . Qui, il problema di ottimizzazione diventa convesso (e quindi trattabile). E, sebbene il problema non sia più identico, la soluzione è simile. Se ricordo bene, sia LASSO che l'inseguimento della corrispondenza ortogonale hanno dimostrato di recuperare la soluzione esatta in determinate condizioni.l1