Perché usare la regolarizzazione L1 su L2?


10

Conducendo un modello di regressione lineare usando una funzione di perdita, perché dovrei usare invece della regolarizzazione ?L1L2

È meglio prevenire l'eccessivo adattamento? È deterministico (quindi sempre una soluzione unica)? È meglio nella selezione delle caratteristiche (perché produce modelli sparsi)? Dissipa i pesi tra le caratteristiche?


2
L2 non effettua la selezione variabile, quindi L1 è decisamente migliore in questo.
Michael M,

Risposte:


5

Fondamentalmente, aggiungiamo un termine di regolarizzazione al fine di evitare che i coefficienti si adattino così perfettamente all'adattamento.

La differenza tra L1 e L2 è L1 è la somma dei pesi e L2 è solo la somma del quadrato dei pesi.

L1 non può essere usato in approcci basati sul gradiente poiché non è differenziabile a differenza di L2

L1 aiuta a eseguire la selezione delle funzioni in spazi di funzioni sparse. La selezione della funzione è di sapere quali funzioni sono utili e quali sono ridondanti.

La differenza tra le loro proprietà può essere riassunta come:

l1 vs l2


1
Non è vero che "L1 non può essere utilizzato in approcci basati sul gradiente". Keras lo supporta , ad esempio. Sì, la derivata è sempre costante, quindi è più difficile per la discesa del gradiente trovare il minimo. Ma la regolarizzazione è un piccolo termine all'interno della funzione di perdita, quindi non è molto importante nel grande schema delle cose.
Ricardo Cruz,

-1

L2 ha un vantaggio molto importante rispetto a L1, ovvero l'invarianza di rotazione e scala.

Ciò è particolarmente importante nell'applicazione geografica / fisica.

Supponiamo che il tuo tecnico abbia accidentalmente installato il sensore in un angolo di 45 gradi, L1 ne risentirebbe, mentre L2 (distanza euclidea) rimarrebbe lo stesso.


4
Questa non è affatto una risposta alla domanda.
kbrose,

Potresti spiegare l'invarianza, per favore?
aneesh joshi,

@Chati, la domanda riguarda la regolarizzazione. Lo stai confondendo con altri usi di 1-norma e 2-norma nelle funzioni di perdita.
Ricardo Cruz,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.