Regressione del minimo angolo rispetto al lazo


39

La regressione del minimo angolo e il lazo tendono a produrre percorsi di regolarizzazione molto simili (identici tranne quando un coefficiente attraversa lo zero).

Entrambi possono essere adattati in modo efficiente da algoritmi praticamente identici.

C'è mai qualche motivo pratico per preferire un metodo rispetto all'altro?


Se a questo punto rivalutassi le risposte, sceglieresti una risposta "accettata" diversa?
Aaron Hall,

Risposte:


13

I teoremi "no free lunch" suggeriscono che non esistono distinzioni a priori tra gli algoritmi di inferenza statistica, vale a dire se LARS o LASSO funzionano meglio dipende dalla natura del particolare set di dati. In pratica, quindi, è meglio provare entrambi e utilizzare uno stimatore affidabile delle prestazioni di generalizzazione per decidere quale utilizzare durante il funzionamento (o utilizzare un insieme). Poiché le differenze tra LARS e LASSO sono piuttosto lievi, è probabile che anche le differenze di prestazioni siano piuttosto lievi, ma in generale c'è solo un modo per scoprirlo con certezza!


Puoi ampliare il possibile "metodo ensemble" in questo caso particolare?
chl

35

Se utilizzato in modalità stage-sise, l'algoritmo LARS è un metodo avido che non produce uno stimatore dimostrabilmente coerente (in altre parole, non converge in un risultato stabile quando si aumenta il numero di campioni).

Al contrario, LASSO (e quindi l'algoritmo LARS quando utilizzato in modalità LASSO) risolve un problema di adattamento dei dati convesso. In particolare, questo problema (lo stimatore lineare penalizzato L1) ha molte proprietà ben dimostrate (coerenza, scarsità).

Proverei quindi a usare sempre i LARS in modalità LASSO (o usare un altro risolutore per LASSO), a meno che tu non abbia ottime ragioni per preferire il palcoscenico.


9

LASSO non è un algoritmo in sé, ma un operatore.

Esistono molti modi diversi per derivare algoritmi efficienti per problemi regolarizzati. Ad esempio, si può usare la programmazione quadratica per affrontare direttamente. Immagino che questo sia ciò che chiami LASSO.1

Un altro è LARS, molto popolare per la sua semplicità, la connessione con le procedure future (ma non troppo avide), la prova molto costruttiva e la facile generalizzazione.

Anche rispetto ai solutori di programmazione quadratica all'avanguardia, LARS può essere molto più efficiente.


9

l1l1l2

L'intenzione di questa risposta è di sottolineare che LARS sembra al giorno d'oggi sia stato superseeded da coordinare-discesa e stocastici coordinare-discesa metodi. Questi metodi si basano su algoritmi particolarmente semplici, mentre allo stesso tempo le prestazioni sembrano essere superiori a quelle dei LARS (spesso uno o due ordini di grandezza più veloci). Per esempi vedere questo articolo di Friedman et al.

Quindi, se hai intenzione di implementare LARS, non farlo. Usa la coordinata-discesa che richiede alcune ore.


1
+1 per non implementare LARS ma coordinare la discesa: ha impostazioni in cui è meglio coordinare la discesa (ad esempio per problemi di piccole dimensioni e mod che sono molto sparsi, vedere la tesi di Julien Mairal per confronti empirici), ma è molto difficile da implementare a destra, molto più difficile della coordinata discesa.
Gael Varoquaux,

3

λ


Ecco la mia opinione:

Cp

Inoltre LARS è veloce e affidabile dal punto di vista computazionale. Il lazo è veloce ma c'è una piccola differenza tra l'algoritmo che fa vincere la sfida di velocità ai LARS. D'altra parte ci sono pacchetti alternativi per esempio in R, chiamati 'glmnet' che funzionano in modo più affidabile del pacchetto lars (perché è più generale).

Per riassumere, non c'è nulla di significativo che possa essere preso in considerazione su lars e lazo. Dipende dal contesto in cui verrà utilizzato il modello.

Consiglio personalmente l'uso di glmnet in R in casi sia di alta che di bassa dimensione. o se sei interessato a criteri diversi, puoi usare http://cran.r-project.org/web/packages/msgps/ package.


0

In alcuni contesti può essere preferibile una versione regolarizzata della soluzione dei minimi quadrati. L'algoritmo LASSO (operatore di restringimento e selezione minimi assoluti), ad esempio, trova una soluzione dei minimi quadrati con il vincolo che | β | 1, la norma L1 del vettore parametro, non è maggiore di un dato valore. Allo stesso modo, può risolvere una minimizzazione senza vincoli della penalità dei minimi quadrati con α | β | 1 aggiunto, dove α è una costante (questa è la forma lagrangiana del problema vincolato). Questo problema può essere risolto utilizzando la programmazione quadratica o metodi di ottimizzazione convessa più generali, nonché mediante algoritmi specifici come l'algoritmo di regressione con angolo minimo. La formulazione regolarizzata L1 è utile in alcuni contesti grazie alla sua tendenza a preferire soluzioni con meno valori di parametro diversi da zero, ridurre efficacemente il numero di variabili da cui dipende la soluzione data. [11] Per questo motivo, il LASSO e le sue varianti sono fondamentali nel campo del rilevamento compresso.


5
Con rispetto, questo sembra un copia-e-incolla diretto da Wikipedia, e in realtà non risponde alla domanda.
NPE,

3
(-1) Per lo meno, dovresti riconoscere la citazione da Wikipedia, § sul metodo LASSO su en.wikipedia.org/wiki/Least_squares !!! A proposito, hai dimenticato di incollare l'undicesimo riferimento.
chl

Ho dimenticato di mettere il link, è vero, ma penso comunque che sia una buona risposta a queste domande. Scusami se ti ho fatto pensare di averlo scritto
Mariana Soffer il

n«p
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.