Intuizione per i gradi di libertà di LASSO


12

Zou et al. "Sui" gradi di libertà "del lazo" (2007) mostrano che il numero di coefficienti diversi da zero è una stima imparziale e coerente per i gradi di libertà del lazo.

Mi sembra un po 'controintuitivo.

  • Supponiamo di avere un modello di regressione (dove le variabili sono zero media)

y=βx+ε.
  • Supponiamo che una stima OLS senza restrizioni di sia . Potrebbe approssimativamente coincidere con una stima LASSO di per un'intensità di penalità molto bassa.β O L S = 0.5 βββ^OLS=0.5β
  • Supponiamo inoltre che una stima LASSO per una particolare intensità di penalità sia . Ad esempio, potrebbe essere l '"ottimale" per il set di dati disponibile trovato utilizzando la convalida incrociata. * β L A S S O , λ * = 0.4 λ * λλβ^LASSO,λ=0.4λλ
  • Se ho capito bene, in entrambi i casi il grado di libertà è 1 dato che entrambe le volte c'è un coefficiente di regressione diverso da zero.

Domanda:

  • Come mai i gradi di libertà in entrambi i casi sono gli stessi anche se suggerisce meno "libertà" di ? β OLS=0.5β^LASSO,λ=0.4β^OLS=0.5

Riferimenti:


1
bella domanda, che meriterebbe più attenzione!
Matifou,

Risposte:


8

Assumere ci viene dato un insieme di osservazioni -dimensionale, , . Assumi un modello del modulo: dove , e indica il prodotto interno. Lascia che sia una stima di usando il metodo di adattamento (o OLS o LASSO per i nostri scopi). La formula per i gradi di libertà fornita nell'articolo (equazione 1.2) è: p x iR p i = 1 , ... , n Y i = ß , x i+ ε ε ~ N ( 0 , σ 2 ) ß R p, ß = δ ( { Y i } n i = 1 ) β δ df (n pxiRpi=1,,n

Yi=β,xi+ϵ
ϵN(0,σ2)βRp,β^=δ({Yi}i=1n)βδ
df(β^)=i=1nCov(β^,xi,Yi)σ2.

Ispezionando questa formula possiamo supporre che, secondo la tua intuizione, il vero DOF per LASSO sarà effettivamente inferiore al vero DOF di OLS; il coefficiente di restringimento effettuato dal LASSO dovrebbe tendere a ridurre le covarianze.

Ora, per rispondere alla tua domanda, il motivo per cui il DOF per LASSO è lo stesso del DOF per OLS nel tuo esempio è solo che ci si occupa di stime (anche se imparziali), ottenute da un particolare set di dati campionato dal modello , dei veri valori DOF. Per ogni particolare set di dati, tale stima non sarà uguale al valore reale (soprattutto perché la stima deve essere un numero intero mentre il valore vero è un numero reale in generale).

Tuttavia, quando tali stime sono mediate su molti set di dati campionati dal modello, dall'imparzialità e dalla legge di grandi numeri, tale media converge al vero DOF. Nel caso di LASSO, alcuni di questi set di dati comporteranno uno stimatore in cui il coefficiente è effettivamente 0 (sebbene tali set di dati potrebbero essere rari se è piccolo). Nel caso di OLS, la stima del DOF è sempre il numero di coefficienti, non il numero di coefficienti diversi da zero, quindi la media per il caso OLS non conterrà questi zeri. Questo mostra come gli stimatori differiscono e come lo stimatore medio per il DOF LASSO può convergere in qualcosa di più piccolo dello stimatore medio per il DOF OLS.λ


1
Grazie per aver corretto i miei errori e formulazioni imprecise. Fammi vedere se ti ho capito bene. In sostanza, se dovessimo ripetere l'esperimento molte volte (o campionare più volte dalla stessa popolazione), occasionalmente (il coefficiente verrebbe ridotto fino a zero) e in media (attraverso gli esperimenti) Otterrei DoF per LASSO mentre DoF per OLS (ovviamente). <1=1β^LASSO=0<1=1
Richard Hardy,

A proposito, perché la stima dei gradi di libertà deve essere intera? Davvero? Vorrei anche sottolineare che la notazione del prodotto interno appare inutilmente complicata e viene raramente utilizzata in questo sito; la notazione matriciale sarebbe sufficiente. Ma è una tua scelta, ovviamente.
Richard Hardy,

1
Sì, questo è tutto sommato. La stima dei gradi di libertà deve essere un numero intero per LASSO (almeno per un singolo set di dati) solo perché la stima è il numero di coefficienti diversi da zero.
e2crawfo,

1
L'affermazione La stima dei gradi di libertà deve essere un numero intero per LASSO solo perché la stima è il numero di coefficienti diversi da zero mi sembra altamente tautologico. In generale, non penso che il df debba essere intero, dalla definizione stessa del df che hai scritto. Allo stesso modo, nel caso della cresta, non è necessariamente zero.
Matifou,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.