In che modo Lasso si adatta alle dimensioni della matrice del design?

Se ho una matrice di progettazione , dove è il numero di osservazioni della dimensione , qual è la complessità della risoluzione per con LASSO, wrt e ? Penso che la risposta dovrebbe fare riferimento a come una iterazione LASSO si ridimensiona con questi parametri, piuttosto che a come il numero di iterazioni (convergenza) si ridimensiona, a meno che non ci si senta diversamente. $X\in\mathcal{R}^{n\times d}$ $n$ $d$ $\hat{\beta}=\text{argmin}_{\beta}\frac{1}{2n} ||X\beta-y||^{2} + \lambda||\beta||_{1}$ $n$ $d$

Ho letto questa precedente domanda sulla complessità di LASSO , ma sembra in contrasto con la discussione su glmnet qui e qui . Sono consapevole che ci sono molti algoritmi là fuori, incluso l'approccio GLMnet di glmnet, ma sto scrivendo un documento sulla sostituzione di un componente LASSO con un algoritmo genitore e vorrei includere una discussione sulla complessità di LASSO in generale, specialmente con e . Vorrei anche conoscere la complessità di glmnet nel caso di base non sparsa, ma il documento di riferimento è un po 'confuso poiché l'intera complessità dell'algoritmo non è esplicita. $d$ $n$

— rnoodle
fonte

Non è chiaro perché questa risposta stats.stackexchange.com/a/190717/28666 (nel thread a cui ti sei collegato) non risponda alla tua domanda. Puoi elaborare? Cosa c'è in contrasto con cosa?

— ameba,

Pagina 6 in [pdf] [1], afferma "Quindi un ciclo completo attraverso tutte le variabili d costa

". Tuttavia, la domanda che colleghi agli stati

. Mi sto perdendo un loop qui per ottenere la complessità

? [1]: jstatsoft.org/article/view/v033i01

O (d n)

$O(dn)$

O (d^{2} n)

$O(d^{2}n)$

d^{2}

$d^{2}$

— rnoodle

@amoeba Il link fornito è per l'algoritmo LARS: voglio conoscere l'approccio GLM.

— rimodella il

I riferimenti,

per la regressione dell'angolo minimo e

per la discesa delle coordinate, sono corretti. La differenza è che (1) LARS trova una soluzione esatta in

(e facendo ciò attraversando l'intero percorso di

possibile con complessità pari al problema OLS all'intero problema, che scala anche come

), mentre (2) la discesa delle coordinate sta "solo" un singolo passo di approssimazione in

O (d^{2} n)

$\mathcal{O}(d^2n)$

O (d n)

$\mathcal{O}(dn)$

O (d^{2} n)

$\mathcal{O}(d^2n)$

λ

$\lambda$

O (d^{2} n)

$\mathcal{O}(d^2n)$

, convergente / "discendente" più vicino al minimo del problema LASSO. LARS utilizza ipassaggi

. Con discesa coordinata ... nessuno lo sa.

O (d n)

$\mathcal{O}(dn)$

d

$d$

— Sesto Empirico

Le risposte dai riferimenti,

per la regressione dell'angolo minimo $\mathcal{O}(d^2n)$
per la discesa delle coordinate $\mathcal{O}(dn)$

, sono corretti.

La differenza è che

Le equazioni LARS sono scritte in forma chiusa e trova una soluzione esatta

(e farlo attraversando l'intero percorso del possibile λ mentre la complessità computazionale si sta ridimensionando allo stesso modo di trovare la soluzione del problema dei minimi quadrati ordinari, che scala anche come ) $O(d^2n)$

mentre

la discesa delle coordinate è uno schema iterativo per approssimare la soluzione. La fase indicata (i cui costi di calcolo sono scalabili come ) è "solo" una singola fase di approssimazione, convergente / "discendente" più vicina al minimo del problema LASSO. $\mathcal{O}(dn)$

LARS utilizza (esattamente) i passaggi per trovare la soluzione (con la complessità del ridimensionamento del gradino k-esimo come , primo termine per trovare i prodotti interni nel set inattivo e secondo termine per risolvere il nuovo angolo nelle variabili attive) . Con la discesa coordinata, nessuno conosce veramente il tasso di convergenza e il numero di passaggi richiesti / previsti per una convergenza "sufficiente" (o almeno non è stata descritta bene). $d$ $\mathcal{O}((d-k)n+k^2)$ $d-k$ $k$

D'altra parte, il costo aumenta molto per le dimensioni elevate (mentre non vi è alcun motivo valido per aspettarsi che il tasso di convergenza della discesa della scala si riduca in modo simile, = lineare, se aumenta). In questo modo coordinare in modo intuitivo la discesa funzionerà meglio al di sopra di un certo limite per . Ciò è stato dimostrato anche da studi di casi (si veda anche il riferimento che dimostra che glmnet esegue lo più meglio LARS quando , mentre per algoritmi eseguono simili). $d^2n$ $d$ $d$ $d>>100$ $d=100$

Il ridimensionamento di LARS è un problema che coinvolge la complessità computazionale. Il ridimensionamento della discesa delle coordinate è un problema che coinvolge complessità computazionale e convergenza.

— Sesto Empirico
fonte