Qual è il lazo nell'analisi di regressione?


Risposte:


112

LASSO (Operatore di restringimento e selezione minimi assoluti) è un metodo di regressione che prevede la penalizzazione della dimensione assoluta dei coefficienti di regressione.

Penalizzando (o vincolando in modo equivalente la somma dei valori assoluti delle stime) si finisce in una situazione in cui alcune delle stime dei parametri possono essere esattamente zero. Maggiore è la penalità applicata, maggiori sono le stime ridotte a zero.

Ciò è utile quando desideriamo una selezione automatica di funzioni / variabili o quando si ha a che fare con predittori altamente correlati, dove la regressione standard avrà solitamente coefficienti di regressione "troppo grandi".

https://web.stanford.edu/~hastie/ElemStatLearn/ (Download gratuito) ha una buona descrizione di LASSO e dei relativi metodi.


Sono nuovo del sito; questa è precisamente l'informazione che stavo cercando; grazie molto.
Paul Vogt,

Esiste un PDF su come risolverlo utilizzando il doppio problema?
Royi,

Il collegamento è interrotto
Oliver Angelil,

3

La regressione di LASSO è un tipo di analisi di regressione in cui si verificano contemporaneamente sia la selezione che la regolazione delle variabili. Questo metodo usa una penalità che influenza il loro valore dei coefficienti di regressione. All'aumentare della penalità più coefficienti diventano zero e viceversa Versa. Utilizza la tecnica di normalizzazione L1 in cui il parametro di ottimizzazione viene utilizzato come quantità di restringimento. All'aumentare del parametro di sintonizzazione, aumenta la polarizzazione, mentre diminuisce, quindi aumenta la varianza. Se è costante, allora nessun coefficiente è zero e poiché tende all'infinito, tutti i coefficienti saranno zero.


2

Nella regressione "normale" (OLS) l'obiettivo è ridurre al minimo la somma residua di quadrati (RSS) al fine di stimare i coefficienti

argminβRpi=1n(Yij=1pXijβj)2

In caso di regressione di LASSO si stimano i coefficienti con un approccio leggermente diverso:

argminβRpi=1n(Yij=1pXijβj)2+λj=1p|βj|

La nuova parte è evidenziata in rosso, che è una somma dei valori dei coefficienti assoluti penalizzati da , quindi controlla la quantità di (L1) regolazione.λλ

Notare che se , si tradurrebbe negli stessi coefficienti di quello della regressione lineare semplice. La formula mostra che, nel caso di LASSO , entrambi i requisiti di RSS e L1 (nuova parte rossa) devono essere minimi. Se , la penalità L1 rossa limita la dimensione dei coefficienti in modo tale che il coefficiente possa aumentare solo se ciò porta allo stesso ammontare di diminuzione dell'RSS. Più in generale, l'unico modo in cui i coefficienti possono aumentare è se si riscontra una riduzione comparabile della somma residua dei quadrati (RSS). Quindi, più in alto si impostaλ=0argminλ=1λmaggiore è la penalità applicata ai coefficienti e minori saranno i coefficienti, alcuni potrebbero diventare zero. Ciò significa che LASSO può risultare in modelli parsimoniosi facendo la selezione delle funzionalità e impedisce al modello di adattarsi eccessivamente. Detto questo, puoi usare LASSO se hai molte caratteristiche e il tuo obiettivo è piuttosto di prevedere i dati piuttosto che interpretare i coefficienti del tuo modello.


1
Grazie per la tua risposta (+1). Questo sito supporta , potresti pubblicare le formule in ? Ciò li renderebbe leggibili per gli utenti ipovedenti. Nota che puoi anche usare i colori come qui (fai clic su "modifica" per vedere la risposta non elaborata) e i sottotappi come qui per creare figure simili. Grazie. TEXTEX
Tim

@Tim: Grazie mille per quello! È stato un ottimo consiglio fare clic su Modifica per vedere come è fatto.
boulder
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.