In che modo LASSO seleziona tra i predittori collineari?


10

Sto cercando una risposta intuitiva al perché un modello GLM LASSO seleziona un predittore specifico da un gruppo di quelli altamente correlati e perché lo fa in modo diverso dalla migliore selezione delle funzioni del sottoinsieme.

Dalla geometria di LASSO mostrata in Fig. 2 in Tibshirani 1996 sono portato a credere che LASSO selezioni il predittore con la maggiore varianza.

Supponiamo ora di utilizzare la migliore selezione di sottoinsiemi con CV 10 volte, per ottenere 2 predittori per un modello di regressione logistica e di avere una ragionevole conoscenza preliminare che questi 2 predittori sono ottimali (in senso di perdita 0-1).

La soluzione LASSO favorisce una soluzione meno parsimoniosa (5 predittori) con un maggiore errore di predizione. Intuitivamente, che cosa causa la differenza? È a causa del modo in cui LASSO seleziona tra i predittori correlati?

Risposte:


5

LASSO differisce dalla selezione del miglior sottoinsieme in termini di penalizzazione e dipendenza dal percorso.

Nella selezione del miglior sottoinsieme, presumibilmente è stato utilizzato CV per identificare che 2 predittori offrivano le migliori prestazioni. Durante il CV, i coefficienti di regressione a grandezza intera senza penalità sarebbero stati utilizzati per valutare quante variabili includere. Una volta presa la decisione di utilizzare 2 predittori, tutte le combinazioni di 2 predittori sarebbero state confrontate sull'insieme completo di dati, in parallelo, per trovare i 2 per il modello finale. A quei 2 predittori finali verrebbero dati i loro coefficienti di regressione a grandezza naturale, senza penalità, come se fossero state le uniche scelte da sempre.

Puoi pensare a LASSO come a partire da una grande penalità sulla somma delle grandezze dei coefficienti di regressione, con la penalità gradualmente allentata. Il risultato è che le variabili entrano una alla volta, con una decisione presa in ciascun punto durante il rilassamento se è più prezioso aumentare i coefficienti delle variabili già presenti nel modello o aggiungere un'altra variabile. Ma quando si arriva, per esempio, a un modello a 2 variabili, i coefficienti di regressione consentiti da LASSO saranno di entità inferiore rispetto a quelle che le stesse variabili avrebbero nelle regressioni non penalizzate standard utilizzate per confrontare i modelli a 2 variabili e 3 variabili in selezione del miglior sottoinsieme.

Questo può essere pensato per facilitare l'inserimento di nuove variabili in LASSO rispetto alla selezione del sottoinsieme migliore. Dal punto di vista euristico, LASSO scambia coefficienti di regressione potenzialmente inferiori al reale contro l'incertezza in quante variabili dovrebbero essere incluse. Ciò tenderebbe ad includere più variabili in un modello LASSO e prestazioni potenzialmente peggiori per LASSO se si fosse sicuri che fossero necessarie solo 2 variabili. Ma se sapessi già quante variabili predittive dovrebbero essere incluse nel modello corretto, probabilmente non useresti LASSO.

Finora nulla è dipeso dalla collinearità, che porta diversi tipi di arbitrarietà nella selezione variabile nel migliore sottoinsieme rispetto a LASSO. In questo esempio, best-subset ha esaminato tutte le possibili combinazioni di 2 predittori e ha scelto il migliore tra quelle combinazioni. Quindi vincono i migliori 2 per quel particolare campione di dati.

LASSO, con la sua dipendenza dal percorso nell'aggiungere una variabile alla volta, significa che una scelta precoce di una variabile può influenzare quando altre variabili ad essa correlate entrano più avanti nel processo di rilassamento. È anche possibile che una variabile entri in anticipo e poi che il suo coefficiente LASSO diminuisca quando entrano altre variabili correlate.

In pratica, la scelta tra predittori correlati nei modelli finali con entrambi i metodi dipende fortemente dal campione, come può essere verificato ripetendo questi processi di costruzione del modello su campioni bootstrap con gli stessi dati. Se non ci sono troppi predittori e il tuo interesse principale è la previsione su nuovi set di dati, la regressione della cresta, che tende a mantenere tutti i predittori, potrebbe essere una scelta migliore.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.