Penalizzazione soft-soglia vs. lazo


11

Sto cercando di riassumere ciò che ho capito finora nell'analisi multivariata penalizzata con insiemi di dati ad alta dimensione, e ancora faccio fatica a ottenere una definizione corretta della penalizzazione a soglia morbida rispetto al lasso (o ).L1

Più precisamente, ho usato la regressione PLS sparsa per analizzare la struttura di dati a 2 blocchi, compresi i dati genomici ( polimorfismi a singolo nucleotide , in cui consideriamo la frequenza dell'allele minore nell'intervallo {0,1,2}, considerata una variabile numerica) e fenotipi continui (punteggi che quantificano i tratti della personalità o asimmetria cerebrale, trattati anche come variabili continue). L'idea era di isolare i predittori più influenti (qui, le variazioni genetiche sulla sequenza del DNA) per spiegare le variazioni fenotipiche interindividuali.

Inizialmente ho usato il pacchetto mixOmics R (precedentemente integrOmics) che presenta una regressione PLS penalizzata e un CCA regolarizzato . Guardando il codice R, abbiamo scoperto che la "sparsità" nei predittori è semplicemente indotta selezionando le prime variabili con i carichi più alti (in valore assoluto) sull'i componente, i = 1 , ... , k (l'algoritmo è caricamento di variabili iterative e di calcolo su k componenti, sgonfiando il blocco predittori ad ogni iterazione, vedere PLS sparsi: selezione delle variabili durante l'integrazione dei dati Omics per una panoramica). Al contrario, ilKioio=1,...,KKpacchetto spls scritto da S. Keleş (vedere Regressione dei minimi quadrati parziali sparsi per la riduzione simultanea della dimensione e la selezione delle variabili , per una descrizione più formale dell'approccio adottato da questi autori) implementa l' per la penalizzazione variabile.L1

Non è ovvio per me se vi sia una "biiezione" rigorosa, per così dire, tra la selezione iterativa di funzionalità basata sulla soglia minima e la regolarizzazione di . Quindi la mia domanda è: c'è qualche collegamento matematico tra i due?L1

Riferimenti

  1. Chun, H. e Kele ̧s, S. (2010), minimi quadrati parziali sparsi per riduzione dimensionale simultanea e selezione variabile . Giornale della Royal Statistical Society: Serie B , 72 , 3–25.
  2. Le Cao, K.-A., Rossouw, D., Robert-Granie, C. e Besse, P. (2008), A PLS sparsi per la selezione delle variabili quando si integrano i dati Omics . Applicazioni statistiche in genetica e biologia molecolare , 7 , articolo 35.

Risposte:


2

l1ppl1


@kwak Ok, l'algoritmo LARS sembra in gran parte più sofisticato della semplice soglia sull'importanza delle variabili, ma il punto è che non vedo una chiara relazione tra il parametro di penalità e il numero di variabili che devono essere mantenute nel modello; mi sembra che non possiamo necessariamente trovare un parametro di penalità che produca esattamente un numero fisso di variabili.
chl

@chl:> S-PLS intendi? (hai scritto LARS che è una cosa diversa da qualsiasi algoritmo di cui parli). In effetti, esiste una relazione monotona tra il parametro di penalità e il # del componente, ma non è una relazione lineare e questa relazione varia a seconda del caso (dipende dal set di dati / problema).
user603

La penalità L1 di @kwak può essere ottenuta usando LARS, a meno che non sia fuorviante. Il tuo secondo punto è ciò che ho in mente in realtà; hai qualche riferimento su questo punto?
chl

@chl:> * La penalità L1 può essere raggiunta usando LARS, a meno che non sia fuorviante * non lo sapevo (e non ne dubito). Potete fornire un riferimento? Grazie. per la tua seconda domanda: guarda sui "gradi di libertà" del lazo Hui Zou, Trevor Hastie e Robert Tibshirani Fonte: Ann. Statist. Volume 35, numero 5 (2007), 2173-2192. (ci sono molte versioni non assegnate).
user603

1
@kwak Dai un'occhiata alla pagina web di Tibshirani, www-stat.stanford.edu/~tibs/lasso.html e al larspacchetto R; altri metodi includono la discesa delle coordinate (vedi JSS 2010 33 (1), bit.ly/bDNUFo ) e il scikit.learnpacchetto Python presenta entrambi gli approcci, bit.ly/bfhnZz .
chl

6

L1L1

L1XX1

X


(+1) Grazie per questo, in particolare il documento di Friedman.
chl
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.