Perché Lasso o ElasticNet funzionano meglio di Ridge quando le funzionalità sono correlate


17

Ho un set di 150 funzionalità e molte di esse sono altamente correlate tra loro. Il mio obiettivo è prevedere il valore di una variabile discreta, il cui intervallo è 1-8 . La mia dimensione del campione è 550 e sto usando una validazione incrociata di 10 volte .

AFAIK, tra i metodi di regolarizzazione (Lasso, ElasticNet e Ridge), Ridge è più rigoroso per la correlazione tra le caratteristiche. Ecco perché mi aspettavo che con Ridge avrei dovuto ottenere una previsione più accurata. Tuttavia, i miei risultati mostrano che l'errore assoluto medio di Lazo o Elastico è di circa 0,61 mentre questo punteggio è 0,97 per la regressione della cresta. Mi chiedo quale sarebbe una spiegazione per questo. È perché ho molte funzionalità e Lasso funziona meglio perché fa una sorta di selezione delle funzionalità, eliminando le funzionalità ridondanti?


1
perché pensi che la cresta dovrebbe funzionare meglio? qual è la tua dimensione del campione?
bdeonovic,

1
Che cosa significa "più rigoroso alla regressione"?
bdeonovic,

Risposte:


21

x,zβ12+β22β1+β2xzYx,zxz0.2x+0.8x,0.3x+0.7z0.5x+0.5zsarà altrettanto buono quanto i predittori. Ora guarda questi tre esempi, la penalità del lazo in tutti e tre i casi è uguale, è 1, mentre la penalità della cresta differisce, è rispettivamente 0,68, 0,58, 0,5, quindi la penalità della cresta preferirà la stessa ponderazione delle variabili colinear mentre la penalità del lazo non sarà in grado di scegliere. Questo è uno dei motivi per cui la cresta (o più in generale, la rete elastica, che è una combinazione lineare di penalità del lasso e della cresta) funzionerà meglio con i predittori colinear: Quando i dati danno poche ragioni per scegliere tra diverse combinazioni lineari di predittori colinear, il lazo semplicemente "vagare" mentre la cresta tende a scegliere la stessa ponderazione. Quest'ultimo potrebbe essere una supposizione migliore per l'uso con dati futuri! E, se è così con i dati attuali, potrebbe apparire in validazione incrociata come risultati migliori con la cresta.

Possiamo vederlo in modo bayesiano: la cresta e il lazo implicano diverse informazioni precedenti e le informazioni precedenti implicite dalla cresta tendono ad essere più ragionevoli in tali situazioni. (Questa spiegazione qui ho appreso, più o meno, dal libro: "Apprendimento statistico con la rarità il lazo e le generalizzazioni" di Trevor Hastie, Robert Tibshirani e Martin Wainwright, ma in questo momento non sono riuscito a trovare una citazione diretta).


4
Un buon punto sulla possibilità che la cresta funzioni meglio su dati futuri. La distinzione tra errore nella convalida incrociata nei dati attuali e utilità nei nuovi dati è troppo spesso mancata. Per alcune stime di questi ultimi, l'OP potrebbe ripetere l'intero processo di costruzione di modelli LASSO, rete elastica e cresta su più campioni bootstrap dei dati, quindi esaminare gli errori quando applicati all'intero set di dati. Che almeno mette alla prova il processo di costruzione del modello.
EdM,

Non è ovvio per me perché sarebbe vantaggioso scegliere pesi uguali per i dati collineari? Qualcuno può approfondire su questo punto?
Ramon Martinez,

3

la differenza più importante tra il lazo e la cresta è che il lazo fa naturalmente una selezione, specialmente dove le covariate sono molto correlate. è impossibile essere veramente sicuri senza vedere i coefficienti adattati, ma è facile pensare che tra quelle caratteristiche correlate, molte fossero semplicemente inutili.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.