Perché la regressione della cresta non può fornire una migliore interpretabilità rispetto a LASSO?


11

Ho già un'idea dei pro e dei contro della regressione della cresta e del LASSO.

Per LASSO, il termine di penalità L1 produrrà un vettore di coefficienti sparsi, che può essere visto come un metodo di selezione delle caratteristiche. Tuttavia, ci sono alcune limitazioni per LASSO. Se le funzionalità hanno un'alta correlazione, LASSO selezionerà solo una di esse. Inoltre, per problemi in cui > , LASSO selezionerà al massimo parametri ( e sono rispettivamente il numero di osservazioni e parametri). Questi rendono empiricamente LASSO un metodo non ottimale in termini di prevedibilità rispetto alla regressione della cresta.pnnnp

Per la regressione della cresta, offre una migliore prevedibilità in generale. Tuttavia, la sua interpretabilità non è piacevole come il LASSO.

La spiegazione sopra può essere trovata spesso nei libri di testo in machine learning / data mining. Tuttavia, sono ancora confuso su due cose:

  1. Se normalizziamo l'intervallo di feature (diciamo tra 0 e 1, o con media zero e varianza unitaria) ed eseguiamo la regressione della cresta, possiamo ancora avere un'idea dell'importanza della feature ordinando i valori assoluti dei coefficienti (la caratteristica più importante ha il massimo valore assoluto di coefficienti). Sebbene non stiamo selezionando esplicitamente le funzionalità, l'interpretazione non viene persa utilizzando la regressione della cresta. Allo stesso tempo, possiamo ancora ottenere un elevato potere di predizione. Allora perché abbiamo bisogno di LASSO? Mi sto perdendo qualcosa qui?

  2. LASSO è preferito per la sua natura di selezione delle caratteristiche? A mio avviso, i motivi per cui abbiamo bisogno della selezione delle funzionalità sono la capacità di generalizzare e la facilità di calcolo.

    Per facilità di calcolo, non vogliamo inserire nel nostro modello tutte le 1 milione di funzioni se stiamo eseguendo alcune attività di PNL, quindi per prima cosa eliminiamo alcune funzioni ovviamente inutili per ridurre i costi di calcolo. Tuttavia, per LASSO, possiamo conoscere il risultato della selezione delle caratteristiche (il vettore sparse) solo dopo aver inserito tutti i dati nel nostro modello, quindi non beneficiamo di LASSO in termini di riduzione dei costi di calcolo. Possiamo solo fare previsioni un po 'più velocemente poiché ora inseriamo solo il sottoinsieme di funzionalità (diciamo 500 su 1 milione) nel nostro modello per generare risultati previsti.

    Se LASSO è preferito per la sua capacità di generalizzazione, allora possiamo anche raggiungere lo stesso obiettivo usando la regressione della cresta (o qualsiasi altro tipo di regolarizzazione). Perché abbiamo ancora bisogno di LASSO (o reti elastiche)? Perché non possiamo semplicemente attenerci alla cresta della regressione?

Qualcuno potrebbe accendere alcune luci su questo? Grazie!


3
Questi rendono empiricamente LASSO un metodo non ottimale in termini di prevedibilità rispetto alla regressione della cresta. Non sono d'accordo. Non penso che LASSO sia generalmente peggiore (o migliore) della cresta in termini di previsione. Come dice @jona nella sua risposta, potresti dover affrontare situazioni in cui alcune funzionalità non appartengono veramente al modello, e quindi LASSO sarà più efficace nel respingerle. Tuttavia, con la cresta tutte le funzionalità sarebbero incluse e quelle irrilevanti contaminerebbero le previsioni. Ecco perché abbiamo bisogno di una rete elastica per consentire ai dati di decidere la combinazione appropriata di e . L1L2
Richard Hardy,

3
Mi chiedo anche quali libri di testo dicano cose come Per la regressione della cresta, offre una migliore prevedibilità in generale (a differenza di LASSO, capisco, non in contrasto con la regressione senza restrizioni). Forse il generale non è così generale nel loro uso. Inoltre, quanta interpretabilità dovrebbero produrre i metodi di regolarizzazione? (Inoltre, Shmueli "To Explain or To Predict" (2010) è un bel pezzo, anche se non direttamente correlato.)
Richard Hardy,

1
@RichardHardy, hai ragione. Ora ho letto più attentamente il libro di testo e ho scoperto che " né la regressione della cresta né il lazo domineranno universalmente l'altro " a pagina 223, Introduzione all'apprendimento statistico con applicazioni in R , Gareth James et al
Brad Li

@RichardHardy, inizialmente ho trovato argomenti simili per la regolarizzazione di L1 nelle FAQ di LIBLINEAR
Brad Li

Corse di cresta e Lazo su un esempio reale o due chiarirebbero le differenze? (Ma non sono facili da confrontare - trama adatta contro scarsità?)
Denis

Risposte:


15
  1. Se ordinate 1 milione di cresta-ristretto, in scala, ma diverse da zero caratteristiche, si dovrà fare qualche tipo di decisione: si guarderà ai n migliori predittori, ma ciò che è n ? Il LASSO risolve questo problema in un modo di principio, oggettivo, perché per ogni passo del percorso (e spesso, ti stabiliresti su un punto tramite, ad esempio, la convalida incrociata), ci sono solo coefficienti m che sono diversi da zero.

  2. Molto spesso, formerai modelli su alcuni dati e successivamente li applicherai ad alcuni dati non ancora raccolti. Ad esempio, potresti adattare il tuo modello a 50.000.000 di e-mail e quindi utilizzare quel modello su ogni nuova e-mail. È vero, lo inserirai nel set completo di funzionalità per le prime 50.000.000 di mail, ma per ogni email successiva, avrai a che fare con un modello molto più parsimonioso, più veloce e molto più efficiente in termini di memoria. Inoltre, non dovrai nemmeno raccogliere le informazioni per le funzioni rilasciate, il che può essere estremamente utile se le funzionalità sono costose da estrarre, ad esempio tramite genotipizzazione.

Un'altra prospettiva sul problema L1 / L2 esposta ad esempio da Andrew Gelman è che spesso hai qualche intuizione su come potrebbe essere il tuo problema. In alcune circostanze, è possibile che la realtà sia veramente scarsa. Forse hai misurato milioni di geni, ma è plausibile che solo 30.000 di essi determinino effettivamente il metabolismo della dopamina. In una situazione del genere, L1 si adatta probabilmente meglio al problema.
In altri casi, la realtà può essere densa. Ad esempio, in psicologia, "tutto è correlato (in una certa misura) a tutto" (Paul Meehl). Le preferenze per le mele vs. arance probabilmente fa correlato con tendenze politiche in qualche modo - e anche con IQ. La regolarizzazione potrebbe ancora avere senso qui, ma i veri effetti zero dovrebbero essere rari, quindi L2 potrebbe essere più appropriato.


Grazie. La tua spiegazione è molto chiara! Sono ancora un po 'confuso sull'interpretazione dell'interpretazione di Ridge. Posso definire l'importanza della funzione ordinando le variabili in base ai loro valori assoluti? Ad esempio, se otteniamo il seguente risultato usando la cresta possiamo dire in termini di importanza della funzione , dato che già normalizziamo le funzioni all'interno dell'intervallo . Pertanto, possiamo ancora ottenere l'interpretazione tramite la cresta.
y=2x1+3x2x3
x2>x1>x3[0,1]
Brad Li

Ovviamente puoi ordinarli, ma dovrai comunque prendere una sorta di decisione su quale sottoinsieme di essi guardi.
jona,

6
Un altro modo per formulare questa frase sarebbe: la cresta può aiutare nella selezione delle caratteristiche, LASSO fa la selezione delle caratteristiche.
jona,

1
@Brad, oltre all'eccellente risposta di jona (+1), nota che giudicare l'importanza della caratteristica in base al suo coefficiente di regressione standardizzato è un approccio possibile, ma non l'unico; ci sono diverse misure di "importanza caratteristica" e possono facilmente dare risultati contraddittori. Vedi questa discussione per una lunga discussione: stats.stackexchange.com/questions/64010 .
ameba dice di ripristinare Monica il

1

L'interpretabilità diminuisce se l'obiettivo dipende da molte funzioni. Aumenta se siamo in grado di ridurre il numero di funzioni e mantenere l'accuratezza. La regolarizzazione della cresta non ha la capacità di ridurre il numero di funzioni. Ma Lasso ha l'abilità. Come ciò accade è spiegato visivamente nel seguente link:

Clicca l' articolo su Verso la scienza dei dati

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.