Perché usare il lazo di gruppo anziché il lazo?


13

Ho letto che il lazo di gruppo viene utilizzato per la selezione delle variabili e la scarsità in un gruppo di variabili. Voglio conoscere l'intuizione dietro questa affermazione.

  • Perché il lazo di gruppo è preferito al lazo?
  • Perché il percorso della soluzione lazo di gruppo non è lineare a tratti?

1
Quello che ho capito dagli Yuan e Lin (2006) che il lazo è progettato per selezionare singole variabili e non la selezione dei fattori. Quindi il lazo affronta il problema ANOVA in cui l'obiettivo è selezionare importanti effetti e interazioni importanti per una previsione accurata che equivale alla selezione di gruppi di variabili. L'altro esempio è di modello additivo con polinomio in cui ogni componente è espresso come combinazione lineare di funzioni di base delle variabili misurate originali
Vendetta,

Risposte:


11

Dal punto di vista intuitivo, il lazo di gruppo può essere preferito al lazo poiché ci fornisce un mezzo per incorporare (un certo tipo di) informazioni aggiuntive nella nostra stima per il vero coefficiente . Come scenario estremo, considerando quanto segue:β

Con , inserisci come supporto di . Considera lo stimatore "oracolo" che è il lazo di gruppo con due gruppi: uno il vero supporto e uno il complemento. Sia il valore più piccolo di che rende . A causa della natura della penalità del lazo di gruppo, sappiamo che at sposta da a (per alcuni piccoliS = { j : β * j0 }yN(Xβ,σ2I)S={j:βj0}β

β^=argminβyXβ22+λ(|S|1/2βS2+(p|S|)1/2βSC2),
λmaxλβ^=0λλmaxλmaxϵϵ>0 ), esattamente un gruppo entrerà in sostegno , che è comunemente considerato come una stima per . A causa del nostro raggruppamento, con alta probabilità, il gruppo selezionato sarà e avremo fatto un lavoro perfetto.β^SS

In pratica, non selezioniamo i gruppi così bene. Tuttavia, i gruppi, nonostante siano più fini dello scenario estremo sopra, ci aiuteranno comunque: la scelta sarebbe ancora fatta tra un gruppo di vere covariate e un gruppo di vere e proprie covariate. Stiamo ancora prendendo in prestito la forza.

Questo è formalizzato qui . Mostrano, in alcune condizioni, che il limite superiore dell'errore di predizione del lazo di gruppo è inferiore a un limite inferiore dell'errore di predizione del lazo semplice. Cioè, hanno dimostrato che il raggruppamento rende le nostre stime migliori.

Per la tua seconda domanda: la penalità del lazo (semplice) è lineare a tratti, e questo dà origine al percorso della soluzione lineare a tratti. Intuitivamente, nel caso del lazo di gruppo, la penalità non è più lineare a tratti, quindi non abbiamo più questa proprietà. Un grande riferimento sulla linearità a tratti dei percorsi della soluzione è qui . Vedi la loro proposta 1. Sia e . Mostrano che il percorso della soluzione del lazo di gruppo è lineare se e solo se è costante a tratti. Certo, non è da quando la nostra penalità ha una curvatura globale.L(β)=yXβ22J(β)=gG|g|1/2βg2

(2L(β^)+λ2J(β^))1J(β^)
J

2
Adesso ha molto senso. Grazie mille per la tua risposta.
Vendetta,

4

La risposta di Ben è il risultato più generale. Ma la risposta intuitiva al PO è motivata dal caso di predittori categorici, che di solito sono codificati come variabili fittizie multiple: una per ogni categoria. In molte analisi ha senso considerare queste variabili fittizie (che rappresentano un predittore categorico) insieme anziché separatamente.

Se hai una variabile categoriale con, diciamo, cinque livelli, un lazo dritto potrebbe lasciare due in e tre out. Come gestite questo in modo di principio? Decidi di votare? Usa letteralmente le variabili fittizie anziché le più significative categoriche? In che modo la tua codifica fittizia influenza le tue scelte?

Come si dice nell'introduzione di Il lazo di gruppo per la regressione logistica , menziona:

Già per il caso speciale della regressione lineare quando non sono presenti solo predittori (fattori) continui ma anche categorici, la soluzione lazo non è soddisfacente in quanto seleziona solo variabili fittizie individuali anziché interi fattori. Inoltre, la soluzione lazo dipende da come vengono codificate le variabili fittizie. La scelta di contrasti diversi per un predittore categorico produrrà diverse soluzioni in generale.

Come sottolinea Ben, ci sono anche collegamenti più sottili tra i predittori che potrebbero indicare che dovrebbero essere dentro o fuori insieme. Ma le variabili categoriali sono il bambino poster per il lazo di gruppo.


@Ben: Hmmm ... Non riesco davvero a capire il primo commento dell'OP, sembra che sia una risposta a un commento ora cancellato? La domanda stessa e il suo titolo - che è quello che la maggior parte degli spettatori leggerà - sembra essere una domanda generale. Eliminerò sicuramente la mia risposta se la domanda e il titolo vengono cambiati in qualcosa su "Quali applicazioni non ovvie ci sono al lasso raggruppato oltre il caso delle variabili categoriali?"
Wayne,

Va bene. Mi piace il tuo punto su come l'uso del lazo (semplice) sui fattori fa dipendere le stime dalla codifica dei fattori! In precedenza avevo appena pensato al lazo di gruppo come a darci una sorta di "sparsità di misurazione" anziché una "sparsità di parametri" (cioè dovremmo misurare il fattore o no - tutti i livelli dovrebbero essere selezionati o nessuno.)
user795305
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.