Regolarizzazione norma e norma studio empirico


10

Esistono molti metodi per eseguire la regolarizzazione , ad esempio la regolarizzazione basata sulle norme , e . Secondo Friedman Hastie & Tibsharani , il miglior regolarizzatore dipende dal problema: vale a dire la natura della vera funzione target, la particolare base utilizzata, il rapporto segnale-rumore e la dimensione del campione.L0L1L2

Esiste una ricerca empirica che paragona i metodi e le prestazioni di vari metodi di regolarizzazione?


Tutti e tre gli autori sono a Stanford. Perché non chiedere semplicemente a uno di loro direttamente. Rob Tibshirani è molto alla mano, così come Jerry Friedman. Friedman ha fatto molte ricerche originali sulla regressione regolarizzata. Quindi potrebbe essere la scelta migliore.
Michael R. Chernick,

Ovviamente non posso dire di avergli dato la risposta. Ma indirizzarlo alla persona migliore per rispondere alla domanda sembra qualcosa di più di un semplice commento che di solito tenta di chiarire. Mi chiedo spesso perché le persone facciano sempre le loro domande qui quando possono andare direttamente alla fonte. Sono quasi sicuro che Friedman possa rispondere e ha molto senso andare alla fonte soprattutto quando si tratta di una domanda su qualcosa scritto nel loro libro. Potrei andare alla fonte per ottenere la risposta e presentarla qui.
Michael R. Chernick,

1
Le persone sono intimidite dallo status della fonte come autorità, presumono che la fonte sia troppo impegnata per affrontare la loro domanda (a loro avviso) minore e non importante, hanno paura di ottenere una maleducazione "perché mi stai dando fastidio?" risposta ... È molto più facile andare alla fonte se anche tu sei una fonte, forse per altre cose, sul campo.
jbowman,

1
@jbowman Sì. Lo capisco. Ma noterai che conosco Tibshirani e Friedman su base personale e ho assicurato all'Op che la loro paura è infondata con questi autori. Non ho menzionato Hastie perché non conosco lui e gli altri.
Michael R. Chernick,

1
@chl Non credo che possiamo realisticamente aspettarci di vederli entrare nel sito. Richiede troppo tempo per i professori impegnati con alcune eccezioni come Frank Harrell e forse altri che usano pseudonimi. Ma penso che ci vorrà del tempo per rispondere a domande specifiche inviate direttamente a loro.
Michael R. Chernick,

Risposte:


2

Consideriamo un modello lineare penalizzato.

La penalità non è molto usata ed è spesso sostituita dalla norma che è matematicamente più flessibile.L0L1

La regolarizzazione ha la proprietà per costruire un modello sparse. Ciò significa che solo poche variabili avranno un coefficiente di regressione diverso da 0. È particolarmente usato se si presume che solo poche variabili abbiano un impatto reale sulle variabili di output. Se ci sono variabili molto correlate, solo una di queste verrà selezionata con un coefficiente diverso da 0.L1

La penalità è come se aggiungi un valore sulla diagonale della matrice di input. Può essere utilizzato ad esempio in situazioni in cui il numero di variabili è maggiore del numero di campioni. Per ottenere una matrice quadrata. Con la penalità della norma tutte le variabili hanno un coefficiente di regressione diverso da zero.L2λL2


1
Come contributo aggiuntivo, in particolare per quanto riguarda la norma , non so che direi che è perché non è "matematicamente flessibile"; Penso che sia principalmente perché l'ottimizzazione è proibitivamente costosa (ci sono modi per provare a farlo, ma non credo che nulla funzioni in generale). Conosco una figura "big-cheese" che lavora nella selezione variabile e ha detto che gli piacerebbe usare una penalità e che il calcolo è l'unica ragione per cui non lo fa. L0L0
ragazzo,

1

Alcune aggiunte alla risposta di @Donbeo

1) La norma L0 non è una norma nel vero senso. È il numero di voci diverse da zero in un vettore. Questa norma non è chiaramente una norma convessa e non è una norma nel vero senso. Quindi potresti vedere termini come L0 "norma". Diventa un problema combinatorio ed è quindi NP difficile.

2) La norma L1 fornisce una soluzione sparsa (cercare LASSO). Ci sono risultati fondamentali di Candes, Donoho ecc. Che mostrano che se la vera soluzione è veramente scarsa, i metodi penalizzati da L1 la recupereranno. Se la soluzione sottostante non è scarsa, non otterrai la soluzione sottostante nei casi in cui p >> n. Ci sono buoni risultati che dimostrano che il Lazo è coerente.

3) Esistono metodi come la rete elastica di Zhou e Hastie che combinano soluzioni penalizzate L2 e L1.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.