La mia comprensione della regressione di LASSO è che i coefficienti di regressione sono selezionati per risolvere il problema di minimizzazione:
In pratica questo viene fatto usando un moltiplicatore di Lagrange, facendo risolvere il problema
Qual è il rapporto tra e ? Wikipedia, inutilmente, afferma semplicemente che è "dipendente dai dati".
Perché me ne importa? Innanzitutto per curiosità intellettuale. Ma sono anche preoccupato per le conseguenze sulla selezione di per convalida incrociata.
In particolare, se sto eseguendo la convalida incrociata n-fold, inserisco n modelli diversi in n diverse partizioni dei miei dati di allenamento. Quindi confronto l'accuratezza di ciascuno dei modelli sui dati non utilizzati per un dato . Ma lo stesso implica un diverso vincolo ( ) per diversi sottoinsiemi di dati (ovvero, è "dipendente dai dati").
Il problema della convalida incrociata che non voglio davvero risolvere è quello di trovare la che offre il miglior compromesso di precisione di bias?
Posso avere un'idea approssimativa delle dimensioni di questo effetto in pratica calcolando per ogni divisione di convalida incrociata e e osservando la distribuzione risultante. In alcuni casi il vincolo implicito ( ) può variare sostanzialmente in modo sostanziale tra i miei sottoinsiemi di convalida incrociata. Dove sostanzialmente intendo il coefficiente di variazione in .