Risposte:
Nel libro The Elements of Statistical Learning , Hastie et al. fornire un confronto molto approfondito e approfondito di queste tecniche di contrazione. Il libro è disponibile online ( pdf ). Il confronto viene effettuato nella sezione 3.4.3, pagina 69.
La differenza principale tra Lasso e Ridge è il termine di penalità che usano. Ridge usa un termine di penalità che limita la dimensione del vettore del coefficiente. Il lazo usa una penalità L 1 che impone la scarsità tra i coefficienti e, quindi, rende il modello adattato più interpretabile. Elasticnet è introdotto come un compromesso tra queste due tecniche e ha una penalità che è un mix di norme L 1 e L 2 .
Per riassumere, ecco alcune differenze salienti tra Lasso, Ridge e rete elastica:
Ti consiglio vivamente di dare un'occhiata a Un'introduzione al libro di apprendimento statistico (Tibshirani et. Al, 2013).
La ragione di ciò è che gli elementi del libro di apprendimento statistico sono destinati a persone con una formazione avanzata nelle scienze matematiche. Nella prefazione all'ISL, gli autori scrivono:
Un'Introduzione per l'apprendimento statistico nasce dalla necessità percepita di un trattamento più ampio e meno tecnica di questi argomenti. [...]
Un'introduzione all'apprendimento statistico è appropriata per studenti universitari avanzati o studenti di master in statistica o campi quantitativi correlati o per persone di altre discipline che desiderano utilizzare strumenti di apprendimento statistico per analizzare i propri dati.
Le risposte di cui sopra sono molto chiare e istruttive. Vorrei aggiungere un punto minore dal punto di vista statistico. Prendi la regressione della cresta come esempio. È un'estensione della regressione del minimo quadrato ordinale per risolvere i problemi di multicollinearità quando ci sono molte caratteristiche correlate. Se la regressione lineare è
Y=Xb+e
La normale soluzione di equazione per la regressione lineare multipla
b=inv(X.T*X)*X.T*Y
La normale soluzione di equazione per la regressione della cresta è
b=inv(X.T*X+k*I)*X.T*Y.
It is a biased estimator for b and we can always find a penalty term k which will make the mean square error of Ridge regression smaller than that of OLS regression.
For LASSO and Elastic-Net, we could not find such a analytic solution.