La regolarizzazione della rete elastica è sempre preferita a Lasso & Ridge poiché sembra risolvere gli svantaggi di questi metodi? Qual è l'intuizione e qual è la matematica dietro la rete elastica?
La regolarizzazione della rete elastica è sempre preferita a Lasso & Ridge poiché sembra risolvere gli svantaggi di questi metodi? Qual è l'intuizione e qual è la matematica dietro la rete elastica?
Risposte:
Sì, la rete elastica è sempre preferita alla regressione del lazo e della cresta perché risolve i limiti di entrambi i metodi, includendoli anche come casi speciali. Quindi, se la soluzione di cresta o lazo è, in effetti, la migliore, allora qualsiasi buona routine di selezione del modello lo identificherà come parte del processo di modellazione.
I commenti al mio post hanno sottolineato che i vantaggi della rete elastica non sono non qualificati. Continuo a credere che la generalità della regressione della rete elastica sia ancora preferibile alla regolarizzazione o da sola. In particolare, penso che i punti di contesa tra me e gli altri siano direttamente collegati alle ipotesi che siamo disposti a formulare sul processo di modellizzazione. In presenza di una forte conoscenza dei dati sottostanti, alcuni metodi saranno preferiti ad altri. Tuttavia, la mia preferenza per la rete elastica è radicata nel mio scetticismo sul fatto che si saprà con certezza che o è il vero modello.
Questo è in qualche modo circolare. Perdonami se questo è un po 'strano, ma se sai che LASSO (cresta) è la soluzione migliore, allora non ti chiederai come modellarlo appropriatamente; ti basta montare un modello LASSO (cresta). Se sei assolutamente sicuro che la risposta corretta sia la regressione di LASSO (cresta), allora sei chiaramente convinto che non ci sarebbe motivo di perdere tempo a montare una rete elastica. Ma se sei leggermente meno sicuro che LASSO (cresta) sia il modo corretto di procedere, credo che abbia senso stimare un modello più flessibile e valutare quanto i dati supportino la convinzione precedente.
Anche questo è vero, ma penso che sia circolare per un motivo simile: se hai stimato una soluzione ottimale e scopri che questo è il modello supportato dai dati. Da un lato, sì, il tuo modello stimato non è il modello vero, ma devo chiedermi come si potrebbe sapere che il modello vero è (o ) prima di qualsiasi stima del modello. Potrebbero esserci domini in cui hai questo tipo di conoscenza precedente, ma il mio lavoro professionale non è uno di questi.
Questo è rilevante solo se hai limiti di tempo / computer ristretti; altrimenti è solo un fastidio. GLMNET è l'algoritmo standard per la stima delle soluzioni di rete elastica. L'utente fornisce un certo valore di alfa e utilizza le proprietà del percorso della soluzione di regolarizzazione per stimare rapidamente una famiglia di modelli per una varietà di valori di ampiezza di penalizzazione e spesso può stimare questa famiglia di soluzioni più rapidamente della stima solo una soluzione per un valore specifico . Quindi, sì, l'uso di GLMNET ti porta al dominio dell'utilizzo dei metodi in stile griglia (iterare su alcuni valori di e lasciare che GLMNET provi una varietà di s), ma è piuttosto veloce.
Questo è vero, ma nella fase in cui si sta contemplando quale metodo utilizzare, non si saprà quale rete elastica, cresta o LASSO è la migliore. Se uno dei motivi per cui la soluzione migliore deve essere LASSO o regressione della cresta, allora siamo nel dominio del reclamo (1). Se siamo ancora incerti su quale sia il migliore, allora possiamo testare LASSO, le soluzioni di cresta e rete elastica e fare una scelta di un modello finale a quel punto (o, se sei un accademico, basta scrivere il tuo articolo su tutti e tre ). Questa situazione di precedente incertezza ci collocherà nel dominio della rivendicazione (2), in cui il modello vero è LASSO / cresta ma non lo sapevamo in anticipo e selezioniamo accidentalmente il modello sbagliato a causa di iperparametri mal identificati, oppure la rete elastica è in realtà la soluzione migliore.
La corretta validazione del modello è parte integrante di qualsiasi impresa di machine learning. La convalida del modello è di solito anche un passaggio costoso, quindi si cercherebbe di minimizzare le inefficienze qui - se una di quelle inefficienze sta inutilmente provando valori che sono noti per essere inutili, allora un suggerimento potrebbe essere quello di farlo. Sì, fallo in ogni caso, se ti senti a tuo agio con l'affermazione forte che stai facendo su come sono organizzati i tuoi dati - ma torniamo al territorio di rivendicazione (1) e rivendicazione (2).
Consiglio vivamente di leggere la letteratura su questi metodi, a partire dalla carta originale sulla rete elastica. Il documento sviluppa l'intuizione e la matematica ed è altamente leggibile. Riprodurlo qui sarebbe solo a scapito della spiegazione degli autori. Ma il riassunto di alto livello è che la rete elastica è una somma convessa di penalità di cresta e lazo, quindi la funzione oggettiva per un modello di errore gaussiano è simile a
per
Hui Zou e Trevor Hastie. " Regolarizzazione e selezione variabile tramite la rete elastica ." Statistica JR. Soc., Vol 67 (2005), Part 2., pp. 301-320.
Richard Hardy sottolinea che questo è sviluppato in modo più dettagliato in Hastie et al. "Gli elementi dell'apprendimento statistico" capitoli 3 e 18.
Questa è una domanda che mi viene posta nei commenti:
Consentitemi di suggerire un ulteriore argomento contro il vostro punto di vista secondo cui la rete elastica è uniformemente migliore del lazo o della cresta da sola. Immagina di aggiungere un'altra penalità alla funzione di costo netto elastico, ad esempio un costo , con un iperparametro . Non credo che ci siano molte ricerche su questo, ma scommetterei che se fai una ricerca di validazione incrociata su una griglia di parametri 3d, otterrai come valore ottimale. In tal caso, sosterresti quindi che è sempre una buona idea includere anche il costo di .
Apprezzo che lo spirito della domanda sia "Se è come pretendi e due sanzioni sono buone, perché non aggiungerne un'altra?" Ma penso che la risposta stia nel motivo per cui ci regolarizziamo in primo luogo.
regolarizzazione tende a produrre soluzioni sparse, ma tende anche a selezionare la caratteristica più fortemente correlata con il risultato e azzerare il resto. Inoltre, in un set di dati con osservazioni, è possibile selezionare al massimo funzionalità. regolarizzazione è adatta per affrontare i problemi errati derivanti da caratteristiche altamente (o perfettamente) correlate. In un set di dati con funzionalità , la regolarizzazione può essere utilizzata per identificare in modo univoco un modello nel caso .
Mettendo da parte uno di questi problemi, il modello regolarizzato può comunque superare il modello ML perché le proprietà di restringimento degli stimatori sono "pessimistiche" e portano i coefficienti verso 0.
Ma non sono a conoscenza delle proprietà statistiche per la regolarizzazione di . Nei problemi su cui ho lavorato, generalmente affrontiamo entrambi i problemi: l'inclusione di caratteristiche scarsamente correlate (ipotesi non confermate dai dati) e caratteristiche co-lineari.
In effetti, ci sono ragioni convincenti che le penalità di e sui parametri sono le uniche tipicamente utilizzate.
In Perché vediamo solo la regolarizzazione e ma non altre norme? L 2, @whuber offre questo commento:
Non ho studiato in modo specifico questa domanda, ma l'esperienza con situazioni simili suggerisce che potrebbe esserci una buona risposta qualitativa: tutte le norme che sono secondariamente differenziabili all'origine saranno localmente equivalenti tra loro, di cui la norma è lo standard . Tutte le altre norme non saranno differenziabili all'origine e riproduce qualitativamente il loro comportamento. Questo copre la gamma. In effetti, una combinazione lineare di una norma e approssima qualsiasi norma al secondo ordine all'origine - e questo è ciò che conta di più nella regressione senza residui periferici.
Quindi possiamo effettivamente coprire la gamma di opzioni che potrebbero essere fornite dalle norme come combinazioni di norme e - il tutto senza richiedere un'ulteriore sintonizzazione dell'iperparametro.
Sono generalmente d'accordo con la risposta di @Sycorax, ma vorrei aggiungere qualche qualifica.
Dire che "la rete elastica è sempre preferita alla regressione del lazo e della cresta" può essere un po 'troppo forte. In campioni di piccole o medie dimensioni, la rete elastica potrebbe non selezionare LASSO puro o soluzione di cresta pura anche se la prima o la seconda è effettivamente quella pertinente. Data una forte conoscenza preliminare, potrebbe avere senso scegliere LASSO o una cresta al posto della rete elastica. Tuttavia, in assenza di conoscenze pregresse, la rete elastica dovrebbe essere la soluzione preferita.
Inoltre, la rete elastica è computazionalmente più costosa di LASSO o della cresta poiché il peso relativo di LASSO rispetto alla cresta deve essere selezionato usando la validazione incrociata. Se una griglia ragionevole di valori alfa è [0,1] con una dimensione del gradino di 0,1, ciò significherebbe che la rete elastica è circa 11 volte più computazionalmente costosa di LASSO o cresta. (Poiché LASSO e la cresta non hanno la stessa complessità computazionale, il risultato è solo un'ipotesi approssimativa.)