Sto cercando di riassumere ciò che ho capito finora nell'analisi multivariata penalizzata con insiemi di dati ad alta dimensione, e ancora faccio fatica a ottenere una definizione corretta della penalizzazione a soglia morbida rispetto al lasso (o ).
Più precisamente, ho usato la regressione PLS sparsa per analizzare la struttura di dati a 2 blocchi, compresi i dati genomici ( polimorfismi a singolo nucleotide , in cui consideriamo la frequenza dell'allele minore nell'intervallo {0,1,2}, considerata una variabile numerica) e fenotipi continui (punteggi che quantificano i tratti della personalità o asimmetria cerebrale, trattati anche come variabili continue). L'idea era di isolare i predittori più influenti (qui, le variazioni genetiche sulla sequenza del DNA) per spiegare le variazioni fenotipiche interindividuali.
Inizialmente ho usato il pacchetto mixOmics R (precedentemente integrOmics
) che presenta una regressione PLS penalizzata e un CCA regolarizzato . Guardando il codice R, abbiamo scoperto che la "sparsità" nei predittori è semplicemente indotta selezionando le prime variabili con i carichi più alti (in valore assoluto) sull'i componente, i = 1 , ... , k (l'algoritmo è caricamento di variabili iterative e di calcolo su k componenti, sgonfiando il blocco predittori ad ogni iterazione, vedere PLS sparsi: selezione delle variabili durante l'integrazione dei dati Omics per una panoramica). Al contrario, ilpacchetto spls scritto da S. Keleş (vedere Regressione dei minimi quadrati parziali sparsi per la riduzione simultanea della dimensione e la selezione delle variabili , per una descrizione più formale dell'approccio adottato da questi autori) implementa l' per la penalizzazione variabile.
Non è ovvio per me se vi sia una "biiezione" rigorosa, per così dire, tra la selezione iterativa di funzionalità basata sulla soglia minima e la regolarizzazione di . Quindi la mia domanda è: c'è qualche collegamento matematico tra i due?
Riferimenti
- Chun, H. e Kele ̧s, S. (2010), minimi quadrati parziali sparsi per riduzione dimensionale simultanea e selezione variabile . Giornale della Royal Statistical Society: Serie B , 72 , 3–25.
- Le Cao, K.-A., Rossouw, D., Robert-Granie, C. e Besse, P. (2008), A PLS sparsi per la selezione delle variabili quando si integrano i dati Omics . Applicazioni statistiche in genetica e biologia molecolare , 7 , articolo 35.