Se p> n, il lazo seleziona al massimo n variabili


13

Una delle motivazioni per la rete elastica è stata la seguente limitazione di LASSO:

Nel p>n caso , il lazo seleziona al massimo n variabili prima di saturare, a causa della natura del problema di ottimizzazione convessa. Questa sembra essere una funzione limitante per un metodo di selezione variabile. Inoltre, il lazo non è ben definito a meno che il limite della norma L1 dei coefficienti non sia inferiore a un certo valore.

( http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2005.00503.x/full )

Capisco che LASSO è un problema di programmazione quadratica, ma può anche essere risolto tramite LARS o discesa gradiente in base agli elementi. Ma non capisco dove in questi algoritmi ho riscontrato un problema se p>n dove p è il numero di predittori e n è la dimensione del campione. E perché questo problema è stato risolto usando la rete elastica dove ho aumentato il problema a variabili p+n che superano chiaramente p .


2
Se il lazo limita l'uso di mantenere p <= n, perché è uno svantaggio piuttosto che una virtù. il sovradimensionamento è un problema serio che si verifica quando p = n. Il modello con p = n è un modello saturo e spesso si sovrappone perché si adatta perfettamente ai dati osservati ma non necessariamente predice bene i casi futuri.
Michael R. Chernick,

3
Il fatto che il lazo selezioni solo fino a variabili può essere visto come conseguenza del fatto che può essere risolto usando (una leggera modifica) l'algoritmo LARS, che ammette fino a n variabili nel set attivo in qualsiasi momento. Il fatto che ciò non valga nel caso della rete elastica deriva essenzialmente dall'incorporazione della penalità 2 e quindi si comporta in modo più simile alla regressione della cresta, quest'ultima delle quali risulta normalmente che tutti i coefficienti sono diversi da zero. nn2
cardinale il

Grazie per le risposte e come vedrei per la discesa del gradiente che al massimo n variabili possono selezionare: Presentazione a cs.cmu.edu/afs/cs/project/link-3/lafferty/www/ml-stat2/talks/ … Paper (sezione 4) su datamining.dongguk.ac.kr/papers/GLASSO_JRSSB_V1.final.pdf
user1137731

3
@utente: penso che potresti confondere il problema matematico con la sua soluzione numerica. L'algoritmo LARS mostra che la soluzione di lazo selezionerà al massimo variabili. Questo è indipendente dagli effettivi mezzi numerici per arrivare alla soluzione, cioè l'algoritmo LARS fornisce la comprensione del problema, ma ovviamente qualsiasi altro metodo che risolva il problema in modo equivalente deve avere la stessa proprietà! :-)n
cardinale

Considera una funzione duplicata volte. Esisterà uno stimatore del lazo con esattamente p diversi da zero (anche se p > n ) Pertanto la tua affermazione non è vera come scritta. ppp>n
user795305

Risposte:


10

Come detto, questa non è una proprietà di un algoritmo ma del problema di ottimizzazione. Le condizioni di KKT danno fondamentalmente che, affinché il coefficiente sia diverso da zero, deve corrispondere a una correlazione fissa con il residuo | X t j ( y - X β ) | = λ ( λβj|Xjt(yXβ)|=λλ è il parametro di regolarizzazione).

Dopo aver risolto le varie complicazioni con valore assoluto ecc., Ti rimane un'equazione lineare per ciascun coefficiente diverso da zero. Poiché il rango della matrice è al massimo n quando p > nXnp>n , questo è il numero di equazioni che possono essere risolte, e quindi ci sono al massimo n non zeri (a meno che non vi siano ridondanze).

A proposito, questo è vero per qualsiasi funzione di perdita, non solo il lazo standard con perdita di . Quindi è in effetti una proprietà della penalità del lazo. Ci sono molti articoli che mostrano questa visione di KKT e le conclusioni che ne conseguono, posso indicare il nostro documento: Rosset e Zhu, Pathways Linear Regularized Paths, Annals of Stats 2007 e riferimenti.L2


Cosa significa KKT? Inoltre, è possibile intendi la perdita di L1 quando parli del lazo standard?
miura,

Ciao Saharon e benvenuto nel sito. Puoi usare LaTeX per rendere le formule più ordinate (l'ho fatto nella tua risposta) e non è necessario firmare i tuoi post, poiché una firma viene aggiunta automaticamente.
Peter Flom - Ripristina Monica

1
@miura: KKT sta per Karush-Kuhn-Tucker. Le condizioni di KKT sono alcune equazioni che le soluzioni a problemi di ottimizzazione (sufficientemente regolari) devono soddisfare ( articolo di Wikipedia ).
mogron,

Vedo solo che Ryan Tibshirani ha un documento di lavoro molto pertinente "Il problema del lazo e l'unicità": stat.cmu.edu/~ryantibs/papers/lassounique.pdf
user1137731

6

Un'altra spiegazione è la seguente: se , il rango della matrice di dati X è al massimo n , quindi la dimensione del suo spazio nullo (a destra) è almeno p - n . Scrivi qualsiasi vettore in questo spazio nullo come z . Quindi, in qualsiasi punto possibile β , ci si può sempre spostare in questo spazio nullo p - n- dimensionale verso gli assi delle coordinate dello spazio ambientale p- dimensionale, per arrivare a β + z , dove (al massimo) n β j s sono diverso da zero e la funzione obiettivo LASSOn<pXnpnzβpnpβ+zn βj

yX(β+z)22+λβ+z1=yXβ22+λβ+z1<yXβ22+λβ1

è diminuito.


(+1) There's a gap here: see my comment on OPs post.
user795305
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.