Perché la regressione della cresta non ridurrà alcuni coefficienti a zero come il lazo?


16

Quando si spiega la regressione di LASSO, viene spesso utilizzato il diagramma di un diamante e un cerchio. Si dice che, poiché la forma del vincolo in LASSO è un diamante, la soluzione dei minimi quadrati ottenuta potrebbe toccare l'angolo del diamante in modo tale da provocare una riduzione di alcune variabili. Tuttavia, nella regressione della cresta, poiché è un cerchio, spesso non toccherà l'asse. Non riuscivo a capire perché non potesse toccare l'asse o forse avere una probabilità inferiore rispetto a LASSO di ridurre alcuni parametri. Inoltre, perché LASSO e la cresta hanno una varianza inferiore rispetto ai minimi quadrati ordinari? Quanto sopra è la mia comprensione di ridge e LASSO e potrei sbagliarmi. Qualcuno può aiutarmi a capire perché questi due metodi di regressione hanno una varianza più bassa?



1
Ok, la parte della varianza in grassetto non è duplicata, almeno di questa domanda; quindi forse questa domanda potrebbe essere modificata per concentrarsi su quello.
Juho Kokkala,

Questo è ben spiegato nella figura 3.11 di web.stanford.edu/~hastie/local.ftp/Springer/OLD/…

@fcop ho letto il libro ma non capisco bene la matematica
user10024395

Ma per capire l'immagine non ti serve la matematica?

Risposte:


26

Questo riguarda la varianza

OLS fornisce quello che viene chiamato il miglior stimatore lineare parziale (BLU) . Ciò significa che se si prende qualsiasi altro stimatore imparziale, è inevitabile che abbia una varianza maggiore rispetto alla soluzione OLS. Quindi perché mai dovremmo considerare qualcos'altro?

Ora il trucco con la regolarizzazione, come il lazo o la cresta, è quello di aggiungere un po 'di distorsione a turno per cercare di ridurre la varianza. Perché quando si stima il vostro errore di previsione, si tratta di una combinazione di tre cose :

E[(y-f^(X))2]=pregiudizio[f^(X))]2+Var[f^(X))]+σ2
L'ultima parte è l'errore irriducibile, quindi non abbiamo alcun controllo su questo. Utilizzando la soluzione OLS il termine di polarizzazione è zero. Ma potrebbe essere che il secondo termine sia ampio. Potrebbe essere una buona idea, ( se vogliamo buone previsioni ), aggiungere un po 'di pregiudizio e, si spera, ridurre la varianza.

Così che cosa è questo ? È la varianza introdotta nelle stime per i parametri nel modello. Il modello lineare ha la forma y =Var[f^(X))] Per ottenere la soluzione OLS risolviamo il problema della minimizzazione arg min β | | y - X β | | 2 Ciò fornisce la soluzione β OLS = ( X T X ) - 1 x T y Il problema di minimo per la regressione cresta è simile: arg min β | | y - 2 + λ |

y=Xβ+ε,ε~N(0,σ2io)
argminβ||y-Xβ||2
β^OLS=(XTX)-1XTy
Ora la soluzione diventa β Ridge = ( X T X + λ I ) - 1 X T y Quindi stiamo aggiungendo questo λ I (chiamato la cresta) sulla diagonale della matrice che invertito. L'effetto di ciò sulla matrice X T X è che si "tira" il determinante della matrice lontano da zero. Quindi quando lo inverti, non ottieni enormi autovalori. Ma ciò porta a un altro fatto interessante, vale a dire che la varianza delle stime dei parametri diventa inferiore.
argminβ||y-Xβ||2+λ||β||2λ>0
β^Cresta=(XTX+λio)-1XTy
λioXTX

Non sono sicuro di poter fornire una risposta più chiara di questa. Ciò a cui tutto si riduce è la matrice di covarianza per i parametri nel modello e l'entità dei valori in quella matrice di covarianza.

Ho preso la regressione della cresta come esempio, perché è molto più facile da trattare. Il lazo è molto più difficile e ci sono ancora ricerche in corso attive su questo argomento.

Queste diapositive forniscono ulteriori informazioni e questo blog contiene anche alcune informazioni rilevanti.

EDIT: Che cosa intendo dire aggiungendo la cresta il determinante viene " allontanato " da zero?

Si noti che la matrice XTX è una matrice simmetrica definita positiva. Si noti che tutte le matrici simmetriche con valori reali hanno autovalori reali. Inoltre, poiché è definito positivo, gli autovalori sono tutti maggiori di zero.

det(XTX-tio)=0
t
det(XTX+λio-tio)=0
det(XTX-(t-λ)io)=0
(t-λ)tiotio+λλ

Ecco un po 'di codice R per illustrare questo:

# Create random matrix
A <- matrix(sample(10,9,T),nrow=3,ncol=3)

# Make a symmetric matrix
B <- A+t(A)

# Calculate eigenvalues
eigen(B)

# Calculate eigenvalues of B with ridge
eigen(B+3*diag(3))

Che dà i risultati:

> eigen(B)
$values
[1] 37.368634  6.952718 -8.321352

> eigen(B+3*diag(3))
$values
[1] 40.368634  9.952718 -5.321352

Quindi tutti gli autovalori vengono spostati esattamente di 3.

Puoi anche dimostrarlo in generale usando il teorema del cerchio di Gershgorin . Lì i centri dei cerchi contenenti gli autovalori sono gli elementi diagonali. Puoi sempre aggiungere "abbastanza" all'elemento diagonale per creare tutti i cerchi nel mezzo piano reale positivo. Tale risultato è più generale e non necessario per questo.


Puoi spiegare come "allontana" matematicamente il determinante da zero (matematicamente)? Grazie
user10024395,

@ user2675516 Ho modificato la mia risposta.
Gumeo,

"Ciò significa che se si prende qualsiasi altro stimatore imparziale, è destinato ad avere una varianza maggiore rispetto alla soluzione OLS". Intendi un pregiudizio più elevato di OLS? Pensavo che OLS avesse un minimo pregiudizio, quindi qualsiasi altra cosa avrebbe un maggiore pregiudizio. Chiarisci per favore
GeorgeOfTheRF il

@ML_Pro OLS ha zero distorsioni e, tra tutti gli stimatori imparziali, ha la varianza più piccola. Si tratta di un teorema . Quindi, se ne scegli un altro, la varianza aumenterà. Ma se regolarizzi, introduci pregiudizi.
Gumeo,

Grazie! La tua risposta mi ha incuriosito. Puoi rispondere a questa nuova domanda che ho creato? stats.stackexchange.com/questions/294926/…
GeorgeOfTheRF

2

Regressione della cresta

L2 = (y-xβ) ^ 2 + λ∑βi ^ 2

Risolverò questa equazione solo per un β per ora e in seguito puoi generalizzare questo:

Quindi, (y-xβ) ^ 2 + λβ ^ 2 questa è la nostra equazione per un β.

Il nostro obiettivo è ridurre al minimo l'equazione di cui sopra, per essere in grado di farlo, lo equiparerà a zero e porterà i derivati ​​wrt β

Y ^ 2- 2xyβ + x ^ 2 β ^ 2 + λβ ^ 2 = 0 ------- Uso (ab) ^ 2 dell'espansione

Writ di derivati ​​parziali

-2xy + 2x ^ 2β + 2βλ = 0

2β (x ^ 2 + λ) = 2xy

β = 2xy / 2 (x ^ 2 + λ)

Infine

β = xy / (x ^ 2 + λ)

Se osservi il denominatore, non diventerà mai zero, poiché stiamo aggiungendo un valore di λ (cioè un parametro ipertestuale). E quindi il valore di β sarà il più basso possibile ma non diventerà zero.

Regressione LASSO:

L1 = (y-xβ) ^ 2 + λ∑ | β |

Risolverò questa equazione solo per un β per ora e in seguito puoi generalizzare questo a più β:

Quindi, (y-xβ) ^ 2 + λβ questa è la nostra equazione per un β, qui ho considerato + ve il valore di β.

Il nostro obiettivo è ridurre al minimo l'equazione di cui sopra, per essere in grado di farlo, lo equiparerà a zero e porterà i derivati ​​wrt β

Y ^ 2- 2xyβ + x ^ 2 β ^ 2 + λβ = 0 ------- Uso dell'espansione (ab) ^ 2

Writ di derivati ​​parziali

-2xy + 2x ^ 2β + λ = 0

2x ^ 2β + λ = 2xy

2x ^ 2β = 2xy-λ

Infine

β = (2xy-λ) / (2X ^ 2)

Se osservi il numeratore, diventerà zero, poiché stiamo sottraendo un valore di λ (cioè un parametro ipertestuale). E quindi il valore di β verrà impostato come zero.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.