Cresta, lazo e rete elastica


Risposte:


39

Nel libro The Elements of Statistical Learning , Hastie et al. fornire un confronto molto approfondito e approfondito di queste tecniche di contrazione. Il libro è disponibile online ( pdf ). Il confronto viene effettuato nella sezione 3.4.3, pagina 69.

La differenza principale tra Lasso e Ridge è il termine di penalità che usano. Ridge usa un termine di penalità che limita la dimensione del vettore del coefficiente. Il lazo usa una penalità L 1 che impone la scarsità tra i coefficienti e, quindi, rende il modello adattato più interpretabile. Elasticnet è introdotto come un compromesso tra queste due tecniche e ha una penalità che è un mix di norme L 1 e L 2 .L2L1L1L2


3
Questo è un meraviglioso libro di consultazione.
bdeonovic

4
anche perché gli autori sono gli inventori di queste tecniche!
Bakaburg,

1
Grazie per averci fornito un riferimento a questo bellissimo libro
Christina,

1
Consiglio vivamente anche la sezione 18.4, pagine 661-668. Fornisce ulteriori informazioni su lazo vs. rete elastica.
Katya Handler,

1
Il link al libro è morto dal 14 ottobre 2016
Ashe

22

Per riassumere, ecco alcune differenze salienti tra Lasso, Ridge e rete elastica:

  1. Lasso fa una selezione sparsa , mentre Ridge no.
  2. Quando si hanno variabili altamente correlate , la regressione di Ridge riduce i due coefficienti l'uno verso l'altro. Il lazo è alquanto indifferente e generalmente si raccoglie l'uno sull'altro. A seconda del contesto, non si sa quale variabile viene scelta. La rete elastica è un compromesso tra i due che tenta di ridursi e di effettuare una selezione sparsa contemporaneamente.
  3. λλ
  4. β

@ balaks per il secondo punto che hai fatto, cosa significa "non si sa quale variabile viene scelta"? Volevi dire che LASSO è indifferente, quindi ne sceglie uno in modo casuale, quindi non sappiamo davvero quale sia il migliore?
meTchaikovsky,

4

Ti consiglio vivamente di dare un'occhiata a Un'introduzione al libro di apprendimento statistico (Tibshirani et. Al, 2013).

La ragione di ciò è che gli elementi del libro di apprendimento statistico sono destinati a persone con una formazione avanzata nelle scienze matematiche. Nella prefazione all'ISL, gli autori scrivono:

Un'Introduzione per l'apprendimento statistico nasce dalla necessità percepita di un trattamento più ampio e meno tecnica di questi argomenti. [...]

Un'introduzione all'apprendimento statistico è appropriata per studenti universitari avanzati o studenti di master in statistica o campi quantitativi correlati o per persone di altre discipline che desiderano utilizzare strumenti di apprendimento statistico per analizzare i propri dati.


1
Puoi approfondire il motivo per cui hai trovato utile questo riferimento?
JM non è uno statistico il

1
Va bene citare un libro, ma per favore contrassegnalo come una citazione e non come un tuo testo. Altrimenti è plagio. L'ho modificato per te adesso.
ameba dice Ripristina Monica il

1

Le risposte di cui sopra sono molto chiare e istruttive. Vorrei aggiungere un punto minore dal punto di vista statistico. Prendi la regressione della cresta come esempio. È un'estensione della regressione del minimo quadrato ordinale per risolvere i problemi di multicollinearità quando ci sono molte caratteristiche correlate. Se la regressione lineare è

Y=Xb+e

La normale soluzione di equazione per la regressione lineare multipla

b=inv(X.T*X)*X.T*Y

La normale soluzione di equazione per la regressione della cresta è

b=inv(X.T*X+k*I)*X.T*Y. 

It is a biased estimator for b and we can always find a penalty term k which will make the mean square error of Ridge regression smaller than that of OLS regression.

For LASSO and Elastic-Net, we could not find such a analytic solution.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.