La standardizzazione prima di Lasso è davvero necessaria?


28

Ho letto tre motivi principali per standardizzare le variabili prima di qualcosa come la Lassoregressione:

1) Interpretazione dei coefficienti.

2) Capacità di classificare l'importanza del coefficiente in base all'entità relativa delle stime del coefficiente post-restringimento.

3) Non è necessario intercettare.

Ma mi chiedo il punto più importante. Abbiamo motivo di pensare che la standardizzazione migliorerebbe la generalizzazione fuori campione del modello? Inoltre, non mi importa se non ho bisogno di un'intercettazione nel mio modello; aggiungerne uno non mi fa male.


1
Chiarimento: sembri voler chiedere "A condizione che la standardizzazione sia facoltativa (uno dei casi speciali in cui i risultati non sono distorti da magnitudini diverse), allora la standardizzazione migliorerà la generalizzazione fuori campione?" È corretto?
Estratto il

@ Drew75 Preferisco una ripartizione dei casi, ad esempio aiuta quando i risultati sono "distorti di diversa grandezza", aiuta quando i risultati non sono distorti, eccetera, la risposta migliore coprirà diverse situazioni.
Jase,

1
Quindi la tua domanda non riguarda il lazo (perché in genere la standardizzazione è necessaria prima del lazo). È più generale. Forse cambia il titolo e la prima frase della domanda.
Estratto il

@Drew: Questo è piuttosto chiedere domande: perché è necessario (quando non lo è?)? Cosa significa distorcere i risultati (rispetto a cosa?)? Penso che la domanda vada bene così com'è.
Scortchi - Ripristina Monica

@ Drew75 La mia domanda riguarda Lasso.
Jase,

Risposte:


21

La regressione del lazo pone vincoli sulla dimensione dei coefficienti associati a ciascuna variabile. Tuttavia, questo valore dipenderà dall'entità di ciascuna variabile. È pertanto necessario centrare e ridurre o standardizzare le variabili.

Il risultato della centratura delle variabili significa che non esiste più un'intercettazione. Questo vale anche per la regressione della cresta, comunque.

Un'altra buona spiegazione è questo post: Necessità di centrare e standardizzare i dati in regressione


Questa non è una risposta o una risposta estremamente indiretta alla mia domanda. Spiega il collegamento tra la tua risposta e la generalizzazione fuori campione (che era la domanda).
Jase,

10
@Jase: affronta il motivo principale della standardizzazione, che hai omesso dal tuo elenco: se desideri eliminare predittori con coefficienti piccoli (o utilizzare in altro modo un termine di penalità in base all'entità del coefficiente), devi decidere cosa conta come "piccolo ". Sebbene la standardizzazione non sia obbligatoria prima di LASSO o altri metodi di regressione penalizzati, raramente è utile che le scale originali in cui si verificano le misure di misurazione dei predittori siano utili a questo scopo.
Scortchi - Ripristina Monica

3
E il punto sul centraggio è che di solito non si desidera eliminare o ridurre l'intercettazione.
Scortchi - Ripristina Monica

2
@Jase: Sì, è quello che intendo (supponendo che il parametro di restringimento di ). E se una stima di coefficiente è tra le più piccole (comunque scegli \ lambda $) dipende dal fatto che sia misurata in chilometri, micrometri, il no. deviazioni standard dal suo valore medio nel campione o in qualche altra unità. Da un punto di vista bayesiano stai mettendo i priori debolmente informativi sui valori dei coefficienti reali, non su quelli non informativi. λ
Scortchi - Ripristina Monica

2
In senso lato, quanto ridurrai nel complesso influenzerà la generalizzazione a campioni di controllo casuali; la decisione alquanto arbitraria di quanto ridurre ogni predittore rispetto agli altri influenzerà la generalizzazione a nuovi campioni da popolazioni simili, dove i coefficienti sono un po 'diversi, dove la distribuzione dei predittori non è necessariamente molto simile a quella nel set di addestramento , ecc. (Naturalmente la tua domanda merita una risposta più approfondita.)
Scortchi - Ripristina Monica

2

Il parametro penalità L1 è una somma di termini beta assoluti. Se le variabili sono tutte di diversa dimensionalità, questo termine non è realmente additivo, anche se matematicamente non c'è alcun errore.

Tuttavia, non vedo le variabili fittizie / categoriche che soffrono di questo problema e penso che non debbano essere standardizzate. la standardizzazione di questi può semplicemente ridurre l'interpretazione delle variabili

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.