Perché glmnet utilizza una rete elastica "ingenua" della carta originale Zou & Hastie?


27

La carta elastica originale Zou & Hastie (2005) La regolarizzazione e la selezione delle variabili tramite la rete elastica hanno introdotto la funzione di perdita netta elastica per la regressione lineare (qui presumo che tutte le variabili siano centrate e ridimensionate in base alla varianza unitaria): ma l'ha definita "rete elastica ingenua". Hanno sostenuto che esegue un doppio restringimento (lazo e cresta), tende a ridursi eccessivamente e può essere migliorato riscalando la soluzione risultante come segue: \ hat \ beta ^ * = (1+ \ lambda_2) \ hat \ beta. Hanno fornito alcuni argomenti teorici e prove sperimentali che questo porta a prestazioni migliori.

L=1nyXβ2+λ1β1+λ2β22,
β^=(1+λ2)β^.

Tuttavia, il successivo glmnetarticolo Friedman, Hastie e Tibshirani (2010) Percorsi di regolarizzazione per modelli lineari generalizzati tramite discesa coordinata non ha utilizzato questo riscalaggio e aveva solo una breve nota a piè di pagina

Zou e Hastie (2005) hanno definito questa penalità l' ingenua rete elastica e hanno preferito una versione riscalata che hanno chiamato rete elastica. Lasciamo cadere questa distinzione qui.

Non vengono fornite ulteriori spiegazioni (o in nessuno dei libri di testo di Hastie et al.). Lo trovo un po 'sconcertante. Gli autori hanno lasciato fuori il riscatto perché lo consideravano troppo ad hoc ? perché ha funzionato peggio in alcuni ulteriori esperimenti? perché non era chiaro come generalizzarlo al caso GLM? Non ne ho idea. Ma in ogni caso il glmnetpacchetto è diventato molto popolare da allora e quindi la mia impressione è che al giorno d'oggi nessuno stia usando il riscalaggio di Zou & Hastie e la maggior parte delle persone probabilmente non è nemmeno a conoscenza di questa possibilità.

Domanda: dopo tutto, questo riscalare è stata una buona idea o una cattiva idea?

Con la glmnetparametrizzazione, il riscalaggio di Zou & Hastie dovrebbe essere

β^=(1+λ(1α))β^.

1
Dal momento che nella carta glment, l'obiettivo è quello di adattarsi all'intero percorso di regolarizzazione, forse l'idea è che il riscalaggio sarebbe solo una trasformazione monotonica del percorso?
Matthew Drury,

1
@MatthewDrury È vero, ma comunque se Friedman et al. credevano che il riscalaggio fosse una buona idea, non l'avrebbero lasciato fuori dal giornale e in particolare dal glmnetcodice. Non è disponibile anche come funzionalità opzionale (il loro codice precedente che accompagnava il documento del 2005 ovviamente supporta il ridimensionamento).
ameba dice di reintegrare Monica il

4
Sfortunatamente, il codice glmnet pubblico è completamente illeggibile ...
Matthew Drury,

Risposte:


25

Ho inviato questa domanda via e-mail a Zou e Hastie e ho ricevuto la seguente risposta da Hastie (spero che non gli dispiacerebbe se lo citassi qui):

Penso che in Zou et al. Eravamo preoccupati per il pregiudizio aggiuntivo, ma ovviamente il riscalamento aumenta la varianza. Quindi sposta solo uno lungo la curva di compromesso della varianza. Presto includeremo una versione di lazo rilassato che è una forma migliore di riscalaggio.

Interpreto queste parole come un'approvazione di una qualche forma di "riscalaggio" della soluzione di rete elastica alla vaniglia, ma Hastie non sembra più sostenere il particolare approccio proposto in Zou & Hastie 2005.


Di seguito esaminerò e confronterò brevemente diverse opzioni di riscalaggio.

Userò glmnetparametrizzazione della perdita con la soluzione indicata come .

L=12nyβ0Xβ2+λ(αβ1+(1α)β22/2),
β^
  1. L'approccio di Zou & Hastie è di usareSi noti che ciò produce un riscalaggio non banale per la cresta pura quando che probabilmente non ha molto senso. D'altra parte, questo non produce riscalamento per il lazo puro quando , nonostante varie affermazioni in letteratura secondo cui lo stimatore del lazo potrebbe beneficiare di un riscalaggio (vedi sotto).

    β^rescaled=(1+λ(1α))β^.
    α=0α=1
  2. Per il lazo puro, Tibshirani ha suggerito di utilizzare l'ibrido lasso-OLS, ovvero di utilizzare lo stimatore OLS utilizzando il sottoinsieme di predittori selezionati dal lazo. Ciò rende coerente lo stimatore (ma annulla la contrazione, che può aumentare l'errore previsto). Si può usare lo stesso approccio per la rete elastica ma il potenziale problema è che la rete elastica può selezionare più di predittori e OLS si romperanno (al contrario, il lazo puro non seleziona mai più di predittori).

    β^elastic-OLS-hybrid=OLS(Xiβ^i0)
    nn
  3. Il lazo rilassato menzionato nell'e-mail di Hastie citato sopra è un suggerimento per eseguire un altro lazo sul sottoinsieme di predittori selezionato dal primo lazo. L'idea è quella di utilizzare due penalità diverse e di selezionarle entrambe tramite convalida incrociata. Si potrebbe applicare la stessa idea alla rete elastica, ma ciò sembrerebbe richiedere quattro diversi parametri di regolarizzazione e la loro messa a punto è un incubo.

    Suggerisco uno schema di rete elastica rilassato più semplice : dopo aver ottenuto , eseguire la regressione della cresta con e lo stesso sul sottoinsieme selezionato di predittori:Questo (a) non richiede parametri di regolarizzazione aggiuntivi, (b) funziona per qualsiasi numero di predittori selezionati e (c) non fa nulla se si inizia con la cresta pura. Per me va bene.β^α=0λ

    β^relaxed-elastic-net=Ridge(Xiβ^i0).

Attualmente sto lavorando con una piccola insieme di dati con e , dove è ben predetto dai pochi PC leader di . Confronterò le prestazioni degli stimatori di cui sopra usando 100 volte ripetute convalide incrociate 11 volte. Come metrica delle prestazioni, sto usando un errore di test, normalizzato per produrre qualcosa di simile a un R-quadrato:Nella figura seguente, le linee tratteggiate corrispondono allo stimatore netto elastico vaniglia e tre sottotrame corrispondono ai tre approcci di riscalaggio:npn=44p=3000yX

Rtest2=1ytestβ^0Xtestβ^2ytestβ^02.
β^

inserisci qui la descrizione dell'immagine

Quindi, almeno in questi dati, tutti e tre gli approcci superano lo stimatore della rete elastica alla vaniglia e la "rete elastica rilassata" offre le migliori prestazioni.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.