Perché vediamo solo la regolarizzazione e ma non altre norme?


36

Sono solo curioso di sapere perché di solito ci sono solo regolarizzazioni delle norme e . Ci sono prove del perché sono migliori?L1L2


13
(+1) Non ho studiato in modo specifico questa domanda, ma l'esperienza con situazioni simili suggerisce che potrebbe esserci una buona risposta qualitativa: tutte le norme che sono secondariamente differenziabili all'origine saranno localmente equivalenti tra loro, di cui la norma è lo standard. Tutte le altre norme non saranno differenziabili all'origine e L 1 riproduce qualitativamente il loro comportamento. Questo copre la gamma. In effetti, una combinazione lineare di una norma L 1 e L 2 approssima qualsiasi norma al secondo ordine all'origine - e questo è ciò che conta di più nella regressione senza residui periferici. L2L1L1L2
whuber

3
Sì: questo è essenzialmente il teorema di Taylor.
whuber

4
Premessa della domanda è falso: altri -norms sono utilizzati, anche se molto meno comune. p
Firebug

3
La combinazione lineare menzionata da @whuber è spesso chiamata rete elastica .
Luca Citi,

4
Inoltre, tra le norme Lp, ottiene anche un sacco di chilometraggio. L
user795305,

Risposte:


28

Oltre ai commenti di @ whuber (*).

Ne discute il libro di Hastie et al. L' apprendimento statistico con Sparsity . Usano anche quello che viene chiamato L0 "norma" (virgolette perché questa non è una norma in senso matematico rigoroso (**)), che conta semplicemente il numero di componenti diversi da zero di un vettore.

In tal senso la norma viene utilizzata per la selezione delle variabili, ma insieme alle norme l q con q < 1 non è convessa, quindi difficile da ottimizzare. Sostengono (un argomento che penso provenga da Donohoe nel rilevamento compresso) che la norma L 1 , cioè il lazo, è la migliore convessificazione della "norma" L 0 ("il rilassamento convesso più vicino della migliore selezione di sottogruppi"). Quel libro fa anche riferimento ad alcuni usi di altre norme L q . La sfera unitaria in l q -norm con q < 1 appare cosìL0lqq<1L1L0Lqlqq<1

enter image description here

(immagine da Wikipedia) mentre è una spiegazione pittorica del perché il lazo può fornire una selezione variabile

enter image description here

Questa immagine proviene dal libro sopra citato. Si può vedere che nel caso del lazo (la sfera dell'unità disegnata come un diamante) è molto più probabile che i contorni ellissoidali (somma dei quadrati) tocchino prima il diamante in uno degli angoli. Nel caso non convesso (figura a sfera della prima unità) è ancora più probabile che il primo tocco tra l'ellissoide e la sfera dell'unità sia in uno degli angoli, quindi quel caso enfatizzerà la selezione delle variabili anche più del lazo.

Se provi questo "lazo con penalità non convessa" su google otterrai molti documenti che presentano problemi simili al lazo con penalità non convessa come con q < 1lqq<1 .

(*) Per completezza copio nei commenti di whuber qui:

Non ho studiato in modo specifico questa domanda, ma l'esperienza con situazioni simili suggerisce che potrebbe esserci una buona risposta qualitativa: tutte le norme che sono secondariamente differenziabili all'origine saranno localmente equivalenti tra loro, di cui la norma è lo standard. Tutte le altre norme non saranno differenziabili all'origine e L 1 riproduce qualitativamente il loro comportamento. Questo copre la gamma. In effetti, una combinazione lineare di una norma L 1 e L 2 approssima qualsiasi norma al secondo ordine all'origine - e questo è ciò che conta di più nella regressione senza residui periferici.L2L1L1L2

(**) La - "norma" manca di omogeneità, che è uno degli assiomi delle norme. Omogeneità significa per α 0 che α x = α x .l0α0αx=αx


1
@kjetilbhalvorsen Grazie per la tua risposta profonda. Scelgo l'apice della scrittura non comune per essere coerente con la domanda e il titolo. Ovviamente puoi scriverlo nel modo che preferisci.
Ferdi,

@kjetilbhalvorsen Puoi espandere un po 'il commento di Whuber? È noto che la norma non è differenziabile all'origine (si consideri x | x | , per esempio). Non è chiaro neppure cosa si intenda per "equivalenza locale" delle norme. I riferimenti sono necessari, per non dire altro. L2x|x|
Olivier,

@Olivier Il -norm è differenziabile all'origine, si sta pensando il 1 -norm. 21
Firebug

@Firebug No. Sto pensando alla norma in 1 dimensione, che è uguale alla norma L 1 . Mi sto perdendo qualcosa? L2L1
Olivier,

2
@Olivier Oh, in realtà hai ragione. Ho capito male, perché il quadrato -norm viene effettivamente utilizzato, ed è differenziabile ovunque. 2
Firebug

12

Penso che la risposta alla domanda dipenda molto da come definisci "migliore". Se sto interpretando bene, vuoi sapere perché queste norme appaiono così frequentemente rispetto ad altre opzioni. In questo caso, la risposta è semplicità. L'intuizione alla base della regolarizzazione è che ho qualche vettore e vorrei che quel vettore fosse "piccolo" in un certo senso. Come descrivi le dimensioni di un vettore? Bene, hai delle scelte:

  • Conta quanti elementi ha (L0) ?
  • Sommi tutti gli elementi (L1) ?
  • Misuri quanto "lunga" è la "freccia" (L2) ?
  • Usi la dimensione dell'elemento più grande ?(L)

Potresti utilizzare norme alternative come L3 , ma non hanno interpretazioni fisiche e amichevoli come quelle sopra.

All'interno di questo elenco, la norma sembra avere belle soluzioni analitiche in forma chiusa per cose come i problemi dei minimi quadrati. Prima di avere una potenza di calcolo illimitata, altrimenti non si sarebbe in grado di fare molti progressi. Vorrei ipotizzare che la visuale "lunghezza della freccia" sia anche più attraente per le persone rispetto ad altre misure di dimensioni. Anche se la norma che scegli per la regolarizzazione ha un impatto sui tipi di residui che ottieni con una soluzione ottimale, non credo che la maggior parte delle persone sia a) consapevole di ciò, oppure b) lo consideri profondamente quando formula il proprio problema. A questo punto, mi aspetto che molte persone continuino a usare L 2 perché è "quello che fanno tutti".L2L2

Un'analogia sarebbe la funzione esponenziale, ex - questo si manifesta letteralmente ovunque in fisica, economia, statistica, apprendimento automatico o qualsiasi altro campo guidato matematicamente. Mi chiedevo per sempre perché tutto nella vita sembrava essere descritto da esponenziali, fino a quando non mi sono reso conto che noi umani non abbiamo così tanti assi nella manica. Gli esponenziali hanno proprietà molto utili per fare algebra e calcolo, e quindi finiscono per essere la funzione numero uno nella cassetta degli attrezzi di qualsiasi matematico quando provano a modellare qualcosa nel mondo reale. Può darsi che cose come il tempo di decoerenza siano "meglio" descritte da un polinomio di alto ordine, ma che sono relativamente più difficili da fare con l'algebra,

Altrimenti, la scelta della norma ha effetti molto soggettivi, e spetta a te come persona dichiarare il problema definire ciò che preferisci in una soluzione ottimale. Ti interessa di più che tutti i componenti nel vettore della tua soluzione siano simili per grandezza o che le dimensioni del componente più grande siano le più piccole possibili? Tale scelta dipenderà dal problema specifico che stai risolvendo.


10

L1L2L1

L2nAxb2+Γx2L2

L0LpL

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.