Relazione LASSO tra


10

La mia comprensione della regressione di LASSO è che i coefficienti di regressione sono selezionati per risolvere il problema di minimizzazione:

minβy-Xβ22 S.t.β1t

In pratica questo viene fatto usando un moltiplicatore di Lagrange, facendo risolvere il problema

minβy-Xβ22+λβ1

Qual è il rapporto tra λ e t ? Wikipedia, inutilmente, afferma semplicemente che è "dipendente dai dati".

Perché me ne importa? Innanzitutto per curiosità intellettuale. Ma sono anche preoccupato per le conseguenze sulla selezione di λ per convalida incrociata.

In particolare, se sto eseguendo la convalida incrociata n-fold, inserisco n modelli diversi in n diverse partizioni dei miei dati di allenamento. Quindi confronto l'accuratezza di ciascuno dei modelli sui dati non utilizzati per un dato λ . Ma lo stesso λ implica un diverso vincolo ( t ) per diversi sottoinsiemi di dati (ovvero, t=f(λ) è "dipendente dai dati").

Il problema della convalida incrociata che non voglio davvero risolvere è quello di trovare la t che offre il miglior compromesso di precisione di bias?

Posso avere un'idea approssimativa delle dimensioni di questo effetto in pratica calcolando per ogni divisione di convalida incrociata e e osservando la distribuzione risultante. In alcuni casi il vincolo implicito ( ) può variare sostanzialmente in modo sostanziale tra i miei sottoinsiemi di convalida incrociata. Dove sostanzialmente intendo il coefficiente di variazione in .β1λtt>>0


5
Upgrade per annullare il downvote inspiegabile. La domanda è ben al di fuori della mia esperienza ma sembra ragionevolmente formulata.
mkt - Ripristina Monica il

Risposte:


2

Questa è la soluzione standard per la regressione della cresta :

β=(XX+λI)1Xy

Sappiamo anche che , quindi deve essere vero quelloβ=t

(XX+λI)1Xy=t
.

che non è facile da risolvere per .λ

La tua scommessa migliore è continuare a fare quello che stai facendo: calcola sullo stesso sottocampione dei dati attraverso più valori .tλ

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.