In che modo Lasso si adatta alle dimensioni della matrice del design?


10

Se ho una matrice di progettazione , dove è il numero di osservazioni della dimensione , qual è la complessità della risoluzione per con LASSO, wrt e ? Penso che la risposta dovrebbe fare riferimento a come una iterazione LASSO si ridimensiona con questi parametri, piuttosto che a come il numero di iterazioni (convergenza) si ridimensiona, a meno che non ci si senta diversamente.XRn×dndβ^=argminβ12n||Xβ-y||2+λ||β||1nd

Ho letto questa precedente domanda sulla complessità di LASSO , ma sembra in contrasto con la discussione su glmnet qui e qui . Sono consapevole che ci sono molti algoritmi là fuori, incluso l'approccio GLMnet di glmnet, ma sto scrivendo un documento sulla sostituzione di un componente LASSO con un algoritmo genitore e vorrei includere una discussione sulla complessità di LASSO in generale, specialmente con e . Vorrei anche conoscere la complessità di glmnet nel caso di base non sparsa, ma il documento di riferimento è un po 'confuso poiché l'intera complessità dell'algoritmo non è esplicita.dn


3
Non è chiaro perché questa risposta stats.stackexchange.com/a/190717/28666 (nel thread a cui ti sei collegato) non risponda alla tua domanda. Puoi elaborare? Cosa c'è in contrasto con cosa?
ameba,

Pagina 6 in [pdf] [1], afferma "Quindi un ciclo completo attraverso tutte le variabili d costa ". Tuttavia, la domanda che colleghi agli stati O ( d 2 n ) . Mi sto perdendo un loop qui per ottenere la complessità d 2 ? [1]: jstatsoft.org/article/view/v033i01O(dn)O(d2n)d2
rnoodle

@amoeba Il link fornito è per l'algoritmo LARS: voglio conoscere l'approccio GLM.
rimodella il

I riferimenti, per la regressione dell'angolo minimo e O ( d n ) per la discesa delle coordinate, sono corretti. La differenza è che (1) LARS trova una soluzione esatta in O ( d 2 n ) (e facendo ciò attraversando l'intero percorso di λ possibile con complessità pari al problema OLS all'intero problema, che scala anche come O ( d 2 n ) ), mentre (2) la discesa delle coordinate sta "solo" un singolo passo di approssimazione in O ( dO(d2n)O(dn)O(d2n)λO(d2n) , convergente / "discendente" più vicino al minimo del problema LASSO. LARS utilizza ipassaggi d . Con discesa coordinata ... nessuno lo sa. O(dn)d
Sesto Empirico

Risposte:


3

Le risposte dai riferimenti,

  • per la regressione dell'angolo minimoO(d2n)
  • per la discesa delle coordinateO(dn)

, sono corretti.


La differenza è che

Le equazioni LARS sono scritte in forma chiusa e trova una soluzione esatta

(e farlo attraversando l'intero percorso del possibile λ mentre la complessità computazionale si sta ridimensionando allo stesso modo di trovare la soluzione del problema dei minimi quadrati ordinari, che scala anche come )O(d2n)

mentre

la discesa delle coordinate è uno schema iterativo per approssimare la soluzione. La fase indicata (i cui costi di calcolo sono scalabili come ) è "solo" una singola fase di approssimazione, convergente / "discendente" più vicina al minimo del problema LASSO.O(dn)


LARS utilizza (esattamente) i passaggi per trovare la soluzione (con la complessità del ridimensionamento del gradino k-esimo come O ( ( d - k ) n + k 2 ) , primo termine per trovare i prodotti interni d - k nel set inattivo e secondo termine per risolvere il nuovo angolo nelle k variabili attive) . Con la discesa coordinata, nessuno conosce veramente il tasso di convergenza e il numero di passaggi richiesti / previsti per una convergenza "sufficiente" (o almeno non è stata descritta bene).dO((dk)n+k2)dkK

D'altra parte, il costo aumenta molto per le dimensioni elevate (mentre non vi è alcun motivo valido per aspettarsi che il tasso di convergenza della discesa della scala si riduca in modo simile, = lineare, se d aumenta). In questo modo coordinare in modo intuitivo la discesa funzionerà meglio al di sopra di un certo limite per d . Ciò è stato dimostrato anche da studi di casi (si veda anche il riferimento che dimostra che glmnet esegue lo più meglio LARS quando d > > 100 , mentre per d = 100 algoritmi eseguono simili).d2nddd>>100d=100


Il ridimensionamento di LARS è un problema che coinvolge la complessità computazionale. Il ridimensionamento della discesa delle coordinate è un problema che coinvolge complessità computazionale e convergenza.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.