I vantaggi di fare il "doppio lazo" o eseguire il lazo due volte?


26

Una volta ho sentito un metodo per usare due volte il lazo (come un doppio lazo) in cui esegui il lazo sull'insieme originale di variabili, ad esempio S1, ottieni un insieme sparso chiamato S2, quindi esegui nuovamente il lazo sull'insieme S2 per ottenere l'insieme S3 . C'è un termine metodologico per questo? Inoltre, quali sono i vantaggi di fare il lazo due volte?

Risposte:


23

Sì, la procedura che stai chiedendo (o stai pensando) si chiama lazo rilassato .

L'idea generale è che nel processo di esecuzione di LASSO per la prima volta probabilmente si stanno includendo "variabili del rumore"; l'esecuzione di LASSO su una seconda serie di variabili (dopo la prima LASSO) offre una minore concorrenza tra variabili che sono "concorrenti reali" rispetto al far parte del modello e non solo variabili "noise". Tecnicamente, l'obiettivo di questo metodo è superare la (nota) convergenza lenta di LASSO in set di dati con un gran numero di variabili.

Puoi saperne di più sull'articolo originale di Meinshausen (2007) .

Raccomando anche la sezione 3.8.5 su Elements of Statistical Learning (Hastie, Tibshirani & Friedman, 2008) , che offre una panoramica di altri metodi molto interessanti per eseguire la selezione delle variabili usando LASSO.


Grazie! Esaminerò sicuramente l'articolo di Meinshausen.
Bstat,

19

L'idea è di separare i due effetti del lazo

  1. Selezione delle variabili (ovvero, molte, anche la maggior parte, s sono zero)β
  2. Restringimento coefficiente (vale a dire che anche i valori zero sono più piccoli, in valore assoluto, rispetto alla regressione non aperta). Questa è spesso una buona cosa anche senza selezione perché si evita un eccesso di adattamento.β

Se hai molte variabili ( ) e stai eseguendo il lazo, allora vuoi avere una penalità grande per selezionare un piccolo numero di variabili. Tuttavia, questa penalità potrebbe ridurre eccessivamente le variabili selezionate (si è inadeguati).p>>n

L'idea del lazo rilassato è quella di separare i due effetti: si utilizza una penalità elevata al primo passaggio per selezionare le variabili; e una penalità minore sul secondo passaggio per ridurli di un importo inferiore.

Il documento originale (come collegato da Néstor) fornisce maggiori dettagli.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.