Dal punto di vista intuitivo, il lazo di gruppo può essere preferito al lazo poiché ci fornisce un mezzo per incorporare (un certo tipo di) informazioni aggiuntive nella nostra stima per il vero coefficiente . Come scenario estremo, considerando quanto segue:β∗
Con , inserisci come supporto di . Considera lo stimatore "oracolo" che è il lazo di gruppo con due gruppi: uno il vero supporto e uno il complemento. Sia il valore più piccolo di che rende . A causa della natura della penalità del lazo di gruppo, sappiamo che at sposta da a (per alcuni piccoliS = { j : β * j ≠ 0 }y∼N(Xβ∗,σ2I)S={j:β∗j≠0}β∗
β^=argminβ∥y−Xβ∥22+λ(|S|1/2∥βS∥2+(p−|S|)1/2∥βSC∥2),
λmaxλβ^=0λλmaxλmax−ϵϵ>0 ), esattamente un gruppo entrerà in sostegno , che è comunemente considerato come una stima per . A causa del nostro raggruppamento, con alta probabilità, il gruppo selezionato sarà e avremo fatto un lavoro perfetto.
β^SS
In pratica, non selezioniamo i gruppi così bene. Tuttavia, i gruppi, nonostante siano più fini dello scenario estremo sopra, ci aiuteranno comunque: la scelta sarebbe ancora fatta tra un gruppo di vere covariate e un gruppo di vere e proprie covariate. Stiamo ancora prendendo in prestito la forza.
Questo è formalizzato qui . Mostrano, in alcune condizioni, che il limite superiore dell'errore di predizione del lazo di gruppo è inferiore a un limite inferiore dell'errore di predizione del lazo semplice. Cioè, hanno dimostrato che il raggruppamento rende le nostre stime migliori.
Per la tua seconda domanda: la penalità del lazo (semplice) è lineare a tratti, e questo dà origine al percorso della soluzione lineare a tratti. Intuitivamente, nel caso del lazo di gruppo, la penalità non è più lineare a tratti, quindi non abbiamo più questa proprietà. Un grande riferimento sulla linearità a tratti dei percorsi della soluzione è qui . Vedi la loro proposta 1. Sia e . Mostrano che il percorso della soluzione del lazo di gruppo è lineare se e solo se è costante a tratti. Certo, non è da quando la nostra penalità ha una curvatura globale.L(β)=∥y−Xβ∥22J(β)=∑g∈G|g|1/2∥βg∥2
(∇2L(β^)+λ∇2J(β^))−1∇J(β^)
J