Risposte:
Risposta breve: ogni volta che ti trovi di fronte a una di queste situazioni:
La regressione della cresta produce generalmente previsioni migliori rispetto alla soluzione OLS, attraverso un migliore compromesso tra distorsione e varianza. Il suo principale svantaggio è che tutti i predittori sono mantenuti nel modello, quindi non è molto interessante se si cerca un modello parsimonioso o si desidera applicare un tipo di selezione delle funzionalità.
Per ottenere la scarsità, il lazo è più appropriato ma non produrrà necessariamente buoni risultati in presenza di elevata collinearità (è stato osservato che se i predittori sono altamente correlati, le prestazioni di predizione del lazo sono dominate dalla regressione della cresta). Il secondo problema con la penalità L1 è che la soluzione di lazo non è determinata in modo univoco quando il numero di variabili è maggiore del numero di soggetti (questo non è il caso della regressione della cresta). L'ultimo svantaggio del lazo è che tende a selezionare solo una variabile tra un gruppo di predittori con correlazioni a coppie elevate. In questo caso, ci sono soluzioni alternative come il gruppo (cioè, raggiungere il restringimento sul blocco di covariate, cioè alcuni blocchi di coefficienti di regressione sono esattamente zero) o fusilazo. Il Lazo grafico offre anche funzionalità promettenti per i GGM (vedere il pacchetto R glasso ).
Ma, sicuramente, i criteri elasticnet , che sono una combinazione di penalità L1 e L2, consentono sia la riduzione che la selezione automatica delle variabili, e consentono di mantenere le variabili nel caso in cui . Dopo Zou e Hastie (2005), è definito come l'argomento che minimizza (over )
dove e.
Il lazo può essere calcolato con un algoritmo basato sulla discesa delle coordinate come descritto nel recente articolo di Friedman e coll., Percorsi di regolarizzazione per modelli lineari generalizzati tramite Discesa delle coordinate (JSS, 2010) o algoritmo LARS. In R, i pacchetti penalizzati , lars o biglars e glmnet sono pacchetti utili; in Python c'è il toolkit scikit.learn , con un'ampia documentazione sugli algoritmi utilizzati per applicare tutti e tre i tipi di schemi di regolarizzazione.
Per quanto riguarda i riferimenti generali, la pagina Lazo contiene la maggior parte di ciò che è necessario per iniziare con la regressione del lazo e i dettagli tecnici sulla penalità L1, e questa domanda correlata presenta riferimenti essenziali, quando dovrei usare lazo vs cresta?
Una giustificazione teorica per l'uso della regressione della cresta è che la sua soluzione è la media posteriore dato un normale precedente sui coefficienti. Cioè, se ti preoccupi dell'errore al quadrato e credi in un precedente normale, le stime della cresta sono ottimali.
Allo stesso modo, la stima del lazo è la modalità posteriore con un doppio esponenziale prima dei tuoi coefficienti. Questo è ottimale con una funzione di perdita pari a zero.
In pratica, queste tecniche generalmente migliorano la precisione predittiva in situazioni in cui si hanno molte variabili correlate e non molti dati. Sebbene lo stimatore OLS sia il migliore imparziale lineare, presenta una varianza elevata in queste situazioni. Se si guarda al trade-biance varianza, l'accuratezza della previsione migliora perché il piccolo aumento della polarizzazione è più che compensato dalla grande riduzione della varianza.