Metodo LASSO / LARS vs generale a specifico (GETS)


15

Mi chiedevo, perché i metodi di selezione dei modelli LASSO e LARS sono così popolari anche se sostanzialmente sono solo variazioni della selezione diretta (e quindi soffrono di dipendenza dal percorso)?

Allo stesso modo, perché i metodi General to Specific (GETS) per la selezione dei modelli sono per lo più ignorati, anche se fanno meglio di LARS / LASSO perché non soffrono del problema della regressione graduale? (riferimento di base per GETS: http://www.federalreserve.gov/pubs/ifdp/2005/838/ifdp838.pdf - il nuovo algoritmo in questo inizia con un ampio modello e la ricerca dell'albero che evita la dipendenza dal percorso, e ha dimostrato di spesso fanno meglio di LASSO / LARS).

Sembra strano, LARS / LASSO sembrano ottenere molta più esposizione e citazioni rispetto al generale allo specifico (GETS), qualcuno ha qualche idea?

Non cercando di avviare un acceso dibattito, più alla ricerca di una spiegazione razionale del perché la letteratura sembra concentrarsi su LASSO / LARS piuttosto che su GETS e poche persone in realtà evidenziano carenze di LASSO / LARS.


Cosa intendi per percorso dipendente qui? Inoltre, c'è qualche riferimento più autorevole che puoi dare per GETS? Non ho familiarità con questo.
cardinale

Ecco un riferimento migliore, più "autorevole" che menziona anche Lasso: degruyter.com/view/j/jtse.2011.3.1/jtse.2011.3.1.1097/… .
Tortilla

Stavo anche per aggiungere ciò che intendevo: quindi aggiungi uno alla volta i regressori significativi, ma questo approccio non ti consente di eliminarne uno se in base alla correlazione tra i regressori potresti diventare insignificante. Pertanto, una volta aggiunto, esiste una dipendenza dal percorso per cui questo regressore è ora impostato e non può essere eliminato. Non è così?
Tortilla

1
È possibile che le variabili vengano eliminate a metà del lazo se il percorso del coefficiente incrocia lo zero lungo il percorso. Conosci Efron et al. articolo originale su LARS? Lo spiega in notevole dettaglio con un piacevole sapore geometrico.
cardinale

2
Penso che il Lazo sia popolare perché ri-cast efficacemente il problema di selezione del modello da uno dei test di ipotesi a uno di stima dei parametri.
probabilityislogic

Risposte:


2

Disclaimer: conosco solo da remoto il lavoro sulla selezione del modello di David F. Hendry, tra gli altri. So, tuttavia, da colleghi rispettati che Hendry ha fatto progressi molto interessanti sui problemi di selezione dei modelli nell'ambito dell'econometria. Giudicare se la letteratura statistica non presta abbastanza attenzione al suo lavoro sulla selezione dei modelli richiederebbe molto più lavoro da parte mia.

È comunque interessante cercare di capire perché un metodo o un'idea genera molta più attività di altri. Senza dubbio ci sono aspetti della moda anche nella scienza. A mio avviso, il lazo (e gli amici) ha un grande vantaggio di essere la soluzione di un problema di ottimizzazione molto facilmente espresso. Questa è la chiave per la comprensione teorica dettagliata della soluzione e degli algoritmi efficienti sviluppati. Il recente libro, Statistics for High-Dimensional Data di Bühlmann e Van De Geer, illustra quanto si sa già del lazo.

Puoi fare infiniti studi di simulazione e, ovviamente, applicare i metodi che ritieni più pertinenti e adatti per una particolare applicazione, ma per parti della letteratura statistica devono anche essere ottenuti risultati teorici sostanziali. Il lazo che ha generato molta attività riflette che ci sono domande teoriche che possono essere effettivamente affrontate e che hanno soluzioni interessanti.

Un altro punto è che il lazo o le variazioni si comportano bene in molti casi. Semplicemente non sono convinto che sia corretto che il lazo sia sovraperformato così facilmente con altri metodi come suggerisce il PO. Forse in termini di selezione del modello (artificiale) ma non in termini di prestazioni predittive. Nessuno dei riferimenti citati sembra paragonare davvero Gets e Lazo.


2

perché i metodi di selezione dei modelli LASSO e LARS sono così popolari anche se fondamentalmente sono solo variazioni della selezione diretta in avanti

Esiste una differenza tra la selezione del sottoinsieme LASSO e (GETS): LASSO riduce i coefficienti verso lo zero in modo dipendente dai dati, mentre la selezione del sottoinsieme (GETS) non lo fa. Questo sembra essere un vantaggio della selezione di sottoinsiemi LASSO over (GETS), anche se occasionalmente potrebbe non riuscire (ha bisogno di una messa a punto dei parametri, che di solito viene eseguita tramite validazione incrociata, e occasionalmente ci potrebbe capitare di sintonizzarci male).

I metodi (GETS) <...> funzionano meglio di LARS / LASSO

Le prestazioni di GETS sembrano essere di qualità comparabile a LASSO quando eseguite da ricercatori imparziali (?) (Sebbene non necessariamente nei documenti in cui viene proposta una nuova versione di GETS - ma è quello che ti aspetteresti); vedere alcuni riferimenti in questa discussione .

Forse Sir Hendry & Co stanno ottenendo buoni risultati usando GETS a causa delle specifiche delle loro applicazioni (principalmente modelli di serie storiche macroeconomiche)? Ma perché potrebbe essere? Questa è una domanda separata .

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.