Ridge e LASSO hanno una struttura di covarianza?


11

Dopo aver letto il capitolo 3 in Elements of Statistical Learning (Hastie, Tibshrani & Friedman), mi chiedevo se fosse possibile implementare i famosi metodi di restringimento citati sul titolo di questa domanda, data una struttura di covarianza, cioè minimizzare il (forse più generale ) quantità

(yXβ)TV1(yXβ)+λf(β),   (1)

invece del solito Ciò è stato principalmente motivato dal fatto che nella mia particolare applicazione, abbiamo diverse variazioni per il (e talvolta anche una struttura di covarianza che può essere stimata) e mi piacerebbe includere loro nella regressione. L'ho fatto per la regressione della cresta: almeno con la mia implementazione in Python / C, vedo che ci sono importanti differenze nei percorsi tracciati dai coefficienti, il che è notevole anche quando si confrontano le curve di validazione incrociata in entrambi i casi.

(yXβ)(yXβ)+λf(β).            (2)
y

Ora mi preparavo a provare a implementare LASSO tramite la regressione dell'angolo minimo, ma per farlo devo prima provare che tutte le sue belle proprietà sono ancora valide quando si minimizza anziché . Finora non ho visto alcun lavoro che effettivamente fa tutto questo, ma qualche tempo fa ho anche letto una citazione che diceva qualcosa come " quelli che non conoscono le statistiche sono condannati a riscoprirla " (forse da Brad Efron? ), quindi è per questo che chiedo prima qui (dato che sono un nuovo arrivato relativamente alla letteratura statistica): è già stato fatto da qualche parte per questi modelli? È implementato in R in qualche modo? (compresa la soluzione e l'implementazione della cresta minimizzando anziché(1)(2)(1)(2), qual è ciò che è implementato nel codice lm.ridge in R)?

Grazie in anticipo per le tue risposte!


La risposta precedente è riportata anche con maggiori dettagli in en.wikipedia.org/wiki/Generalized_least_squares La soluzione può essere implementata utilizzando un approccio FGLS (Fatsible Generalized Least Square)
Nicola Jean

Risposte:


13

Se conosciamo la decomposizione di Cholesky , diciamo, allora e possiamo usare algoritmi standard (con qualunque funzione di penalizzazione si preferisca) sostituendo la risposta con il vettore e i predittori con la matrice .V1=LTL

(yXβ)TV1(yXβ)=(LyLXβ)T(LyLXβ)
LyLX
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.