Che cos'è la regolarizzazione della rete elastica e come risolve gli svantaggi di Ridge ( ) e Lasso ( )?


Risposte:


42

1. Quale metodo è preferito?

Sì, la rete elastica è sempre preferita alla regressione del lazo e della cresta perché risolve i limiti di entrambi i metodi, includendoli anche come casi speciali. Quindi, se la soluzione di cresta o lazo è, in effetti, la migliore, allora qualsiasi buona routine di selezione del modello lo identificherà come parte del processo di modellazione.

I commenti al mio post hanno sottolineato che i vantaggi della rete elastica non sono non qualificati. Continuo a credere che la generalità della regressione della rete elastica sia ancora preferibile alla regolarizzazione o da sola. In particolare, penso che i punti di contesa tra me e gli altri siano direttamente collegati alle ipotesi che siamo disposti a formulare sul processo di modellizzazione. In presenza di una forte conoscenza dei dati sottostanti, alcuni metodi saranno preferiti ad altri. Tuttavia, la mia preferenza per la rete elastica è radicata nel mio scetticismo sul fatto che si saprà con certezza che o è il vero modello.L1L2L1L2

  1. Reclamo: la conoscenza preliminare può ovviare a una delle necessità di utilizzare la regressione della rete elastica.

Questo è in qualche modo circolare. Perdonami se questo è un po 'strano, ma se sai che LASSO (cresta) è la soluzione migliore, allora non ti chiederai come modellarlo appropriatamente; ti basta montare un modello LASSO (cresta). Se sei assolutamente sicuro che la risposta corretta sia la regressione di LASSO (cresta), allora sei chiaramente convinto che non ci sarebbe motivo di perdere tempo a montare una rete elastica. Ma se sei leggermente meno sicuro che LASSO (cresta) sia il modo corretto di procedere, credo che abbia senso stimare un modello più flessibile e valutare quanto i dati supportino la convinzione precedente.

  1. Reclamo: dati di modesta entità non consentiranno il rilevamento delle soluzioni o come preferito, anche nei casi in cui la soluzione o è il vero modello.L1L2L1L2

Anche questo è vero, ma penso che sia circolare per un motivo simile: se hai stimato una soluzione ottimale e scopri che questo è il modello supportato dai dati. Da un lato, sì, il tuo modello stimato non è il modello vero, ma devo chiedermi come si potrebbe sapere che il modello vero è (o ) prima di qualsiasi stima del modello. Potrebbero esserci domini in cui hai questo tipo di conoscenza precedente, ma il mio lavoro professionale non è uno di questi.α{0,1},α=1α=0

  1. Reclamo: l'introduzione di iperparametri aggiuntivi aumenta il costo computazionale della stima del modello.

Questo è rilevante solo se hai limiti di tempo / computer ristretti; altrimenti è solo un fastidio. GLMNET è l'algoritmo standard per la stima delle soluzioni di rete elastica. L'utente fornisce un certo valore di alfa e utilizza le proprietà del percorso della soluzione di regolarizzazione per stimare rapidamente una famiglia di modelli per una varietà di valori di ampiezza di penalizzazione e spesso può stimare questa famiglia di soluzioni più rapidamente della stima solo una soluzione per un valore specifico . Quindi, sì, l'uso di GLMNET ti porta al dominio dell'utilizzo dei metodi in stile griglia (iterare su alcuni valori di e lasciare che GLMNET provi una varietà di s), ma è piuttosto veloce.λλαλ

  1. Reclamo: le prestazioni migliorate della rete elastica su LASSO o la regressione della cresta non sono garantite.

Questo è vero, ma nella fase in cui si sta contemplando quale metodo utilizzare, non si saprà quale rete elastica, cresta o LASSO è la migliore. Se uno dei motivi per cui la soluzione migliore deve essere LASSO o regressione della cresta, allora siamo nel dominio del reclamo (1). Se siamo ancora incerti su quale sia il migliore, allora possiamo testare LASSO, le soluzioni di cresta e rete elastica e fare una scelta di un modello finale a quel punto (o, se sei un accademico, basta scrivere il tuo articolo su tutti e tre ). Questa situazione di precedente incertezza ci collocherà nel dominio della rivendicazione (2), in cui il modello vero è LASSO / cresta ma non lo sapevamo in anticipo e selezioniamo accidentalmente il modello sbagliato a causa di iperparametri mal identificati, oppure la rete elastica è in realtà la soluzione migliore.

  1. Reclamo: la selezione dell'iperparametro senza convalida incrociata è fortemente distorta e soggetta a errori .

La corretta validazione del modello è parte integrante di qualsiasi impresa di machine learning. La convalida del modello è di solito anche un passaggio costoso, quindi si cercherebbe di minimizzare le inefficienze qui - se una di quelle inefficienze sta inutilmente provando valori che sono noti per essere inutili, allora un suggerimento potrebbe essere quello di farlo. Sì, fallo in ogni caso, se ti senti a tuo agio con l'affermazione forte che stai facendo su come sono organizzati i tuoi dati - ma torniamo al territorio di rivendicazione (1) e rivendicazione (2).α

2. Qual è l'intuizione e la matematica dietro la rete elastica?

Consiglio vivamente di leggere la letteratura su questi metodi, a partire dalla carta originale sulla rete elastica. Il documento sviluppa l'intuizione e la matematica ed è altamente leggibile. Riprodurlo qui sarebbe solo a scapito della spiegazione degli autori. Ma il riassunto di alto livello è che la rete elastica è una somma convessa di penalità di cresta e lazo, quindi la funzione oggettiva per un modello di errore gaussiano è simile a

Residual Mean Square Error+αRidge Penalty+(1α)LASSO Penalty

perα[0,1].

Hui Zou e Trevor Hastie. " Regolarizzazione e selezione variabile tramite la rete elastica ." Statistica JR. Soc., Vol 67 (2005), Part 2., pp. 301-320.

Richard Hardy sottolinea che questo è sviluppato in modo più dettagliato in Hastie et al. "Gli elementi dell'apprendimento statistico" capitoli 3 e 18.

3. Cosa succede se si aggiungono ulteriori norme ?Lq

Questa è una domanda che mi viene posta nei commenti:

Consentitemi di suggerire un ulteriore argomento contro il vostro punto di vista secondo cui la rete elastica è uniformemente migliore del lazo o della cresta da sola. Immagina di aggiungere un'altra penalità alla funzione di costo netto elastico, ad esempio un costo , con un iperparametro . Non credo che ci siano molte ricerche su questo, ma scommetterei che se fai una ricerca di validazione incrociata su una griglia di parametri 3d, otterrai come valore ottimale. In tal caso, sosterresti quindi che è sempre una buona idea includere anche il costo di .L3γγ0L3

Apprezzo che lo spirito della domanda sia "Se è come pretendi e due sanzioni sono buone, perché non aggiungerne un'altra?" Ma penso che la risposta stia nel motivo per cui ci regolarizziamo in primo luogo.

L1 regolarizzazione tende a produrre soluzioni sparse, ma tende anche a selezionare la caratteristica più fortemente correlata con il risultato e azzerare il resto. Inoltre, in un set di dati con osservazioni, è possibile selezionare al massimo funzionalità. regolarizzazione è adatta per affrontare i problemi errati derivanti da caratteristiche altamente (o perfettamente) correlate. In un set di dati con funzionalità , la regolarizzazione può essere utilizzata per identificare in modo univoco un modello nel caso .nnL2pL2p>n

Mettendo da parte uno di questi problemi, il modello regolarizzato può comunque superare il modello ML perché le proprietà di restringimento degli stimatori sono "pessimistiche" e portano i coefficienti verso 0.

Ma non sono a conoscenza delle proprietà statistiche per la regolarizzazione di . Nei problemi su cui ho lavorato, generalmente affrontiamo entrambi i problemi: l'inclusione di caratteristiche scarsamente correlate (ipotesi non confermate dai dati) e caratteristiche co-lineari.L3

In effetti, ci sono ragioni convincenti che le penalità di e sui parametri sono le uniche tipicamente utilizzate.L1L2

In Perché vediamo solo la regolarizzazione e ma non altre norme? L 2L1L2, @whuber offre questo commento:

Non ho studiato in modo specifico questa domanda, ma l'esperienza con situazioni simili suggerisce che potrebbe esserci una buona risposta qualitativa: tutte le norme che sono secondariamente differenziabili all'origine saranno localmente equivalenti tra loro, di cui la norma è lo standard . Tutte le altre norme non saranno differenziabili all'origine e riproduce qualitativamente il loro comportamento. Questo copre la gamma. In effetti, una combinazione lineare di una norma e approssima qualsiasi norma al secondo ordine all'origine - e questo è ciò che conta di più nella regressione senza residui periferici.L2L1L1L2

Quindi possiamo effettivamente coprire la gamma di opzioni che potrebbero essere fornite dalle norme come combinazioni di norme e - il tutto senza richiedere un'ulteriore sintonizzazione dell'iperparametro.LqL1L2


4
Dire che "la rete elastica è sempre preferita alla regressione del lazo e della cresta" può essere un po 'troppo forte. In campioni di piccole o medie dimensioni, la rete elastica non può selezionare LASSO puro o soluzione di cresta pura anche se la prima o la seconda è effettivamente quella pertinente. Data una forte conoscenza preliminare, potrebbe avere senso scegliere LASSO o la cresta al posto della rete elastica. Tuttavia, in assenza di conoscenze pregresse, la rete elastica dovrebbe essere la soluzione preferita.
Richard Hardy,

4
Devo dissentire: introdurre come un altro iperparametro significa che deve essere impostato o messo a punto e le prestazioni migliorate non sono garantite - vedi Quanto è grave l'ottimizzazione dell'iperparametro al di fuori della validazione incrociata? α
Scortchi - Ripristina Monica

7
+1 per una discussione approfondita, ma lasciatemi suggerire un ulteriore argomento contro il vostro punto di vista che la rete elastica è uniformemente migliore del lazo o della cresta da sola. Immagina di aggiungere un'altra penalità alla funzione di costo netto elastico, ad esempio un costo L3, con un iperparametro . Non credo che ci siano molte ricerche su questo, ma scommetterei che se fai una ricerca di validazione incrociata su una griglia di parametri 3d, otterrai come valore ottimale. In tal caso, sosterresti quindi che è sempre una buona idea includere anche il costo L3? γ 0γγ0
ameba dice Ripristina Monica il

5
La domanda di @ amoeba era molto accorta, e penso che rispondendo tu sembri aver cambiato un po 'i tuoi standard. A meno che tu non sia assolutamente sicuro che una combinazione di penalità e sia la migliore, allora perché non lasciare che i dati decidano quanta penalità applicare? I tuoi argomenti sembrano ancora un po 'troppo forti e sembrano giustificare l'aggiunta di più (iper) parametri in quasi ogni situazione. L 2 L 3L1L2L3
Scortchi - Ripristina Monica

3
"Siamo in grado di testare le soluzioni LASSO, la cresta e la rete elastica e fare una scelta di un modello finale" - possiamo, ma ovviamente si tratta di una nuova procedura, che ottimizza un criterio soggetto a errore casuale, che può o meno funzionare meglio di LASSo, o regressione della cresta, o sola rete elastica.
Scortchi - Ripristina Monica

11

Sono generalmente d'accordo con la risposta di @Sycorax, ma vorrei aggiungere qualche qualifica.

Dire che "la rete elastica è sempre preferita alla regressione del lazo e della cresta" può essere un po 'troppo forte. In campioni di piccole o medie dimensioni, la rete elastica potrebbe non selezionare LASSO puro o soluzione di cresta pura anche se la prima o la seconda è effettivamente quella pertinente. Data una forte conoscenza preliminare, potrebbe avere senso scegliere LASSO o una cresta al posto della rete elastica. Tuttavia, in assenza di conoscenze pregresse, la rete elastica dovrebbe essere la soluzione preferita.

Inoltre, la rete elastica è computazionalmente più costosa di LASSO o della cresta poiché il peso relativo di LASSO rispetto alla cresta deve essere selezionato usando la validazione incrociata. Se una griglia ragionevole di valori alfa è [0,1] con una dimensione del gradino di 0,1, ciò significherebbe che la rete elastica è circa 11 volte più computazionalmente costosa di LASSO o cresta. (Poiché LASSO e la cresta non hanno la stessa complessità computazionale, il risultato è solo un'ipotesi approssimativa.)


1
O in effetti LASSO o la regressione della cresta potrebbero non migliorare le prestazioni predittive rispetto alla regressione non aperta.
Scortchi - Ripristina Monica

4
Quale tipo di conoscenza precedente porterebbe a preferire Lasso e quale tipo di conoscenza precedente porterebbe a preferire la cresta?
ameba dice Ripristina Monica il

4
@amoeba, se è plausibile che tutti i regressori siano rilevanti, ma che siano altamente correlati, allora non è necessaria alcuna selezione variabile e quindi si potrebbe preferire la cresta. Se, d'altra parte, è probabile che alcuni dei regressori siano completamente irrilevanti (ma non sappiamo quali), allora è necessaria la selezione delle variabili e LASSO potrebbe essere preferito. Questa conoscenza verrebbe presa dal dominio dell'argomento. Penso che potrebbero esserci degli esempi in Hastie et al. "Gli elementi dell'apprendimento statistico" o nella letteratura correlata, non ricordo dove l'ho letto.
Richard Hardy,

1
@kjetilbhalvorsen, grazie, è stato utile.
Richard Hardy,

1
@amoeba, la cresta è migliore per i dati correlati, dove L2 incoraggia molti piccoli pesi (media) sugli ingressi ... l'esempio classico è la ripetizione di misurazioni con rumore indipendente (ad es. elaborazione del segnale o ad es. esami multipli dello stesso soggetto), mentre l1 è meglio dove 1 var domina l'altro, il caso classico è dato da dati gerarchici: dove i coefficienti dovrebbero essere stimati al massimo livello nella gerarchia.
seanv507,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.