Quando utilizzare i metodi di regolarizzazione per la regressione?


83

In quali circostanze si dovrebbe considerare l'utilizzo di metodi di regolarizzazione (cresta, regressione del lasso o degli angoli minimi) anziché OLS?

Nel caso in cui ciò aiuti a guidare la discussione, il mio interesse principale è il miglioramento della precisione predittiva.

Risposte:


75

Risposta breve: ogni volta che ti trovi di fronte a una di queste situazioni:

  • gran numero di variabili o basso rapporto di n. osservazioni al n. variabili (incluso il caso ),np
  • elevata collinearità,
  • alla ricerca di una soluzione sparsa (ad esempio, incorporare la selezione delle funzioni durante la stima dei parametri del modello), oppure
  • tenendo conto del raggruppamento di variabili nel set di dati ad alta dimensione.

La regressione della cresta produce generalmente previsioni migliori rispetto alla soluzione OLS, attraverso un migliore compromesso tra distorsione e varianza. Il suo principale svantaggio è che tutti i predittori sono mantenuti nel modello, quindi non è molto interessante se si cerca un modello parsimonioso o si desidera applicare un tipo di selezione delle funzionalità.

Per ottenere la scarsità, il lazo è più appropriato ma non produrrà necessariamente buoni risultati in presenza di elevata collinearità (è stato osservato che se i predittori sono altamente correlati, le prestazioni di predizione del lazo sono dominate dalla regressione della cresta). Il secondo problema con la penalità L1 è che la soluzione di lazo non è determinata in modo univoco quando il numero di variabili è maggiore del numero di soggetti (questo non è il caso della regressione della cresta). L'ultimo svantaggio del lazo è che tende a selezionare solo una variabile tra un gruppo di predittori con correlazioni a coppie elevate. In questo caso, ci sono soluzioni alternative come il gruppo (cioè, raggiungere il restringimento sul blocco di covariate, cioè alcuni blocchi di coefficienti di regressione sono esattamente zero) o fusilazo. Il Lazo grafico offre anche funzionalità promettenti per i GGM (vedere il pacchetto R glasso ).

Ma, sicuramente, i criteri elasticnet , che sono una combinazione di penalità L1 e L2, consentono sia la riduzione che la selezione automatica delle variabili, e consentono di mantenere le variabili nel caso in cui . Dopo Zou e Hastie (2005), è definito come l'argomento che minimizza (over )m>pnpβ

L(λ1,λ2,β)=YXβ2+λ2β2+λ1β1

dove e.β2=j=1pβj2β1=j=1p|βj|

Il lazo può essere calcolato con un algoritmo basato sulla discesa delle coordinate come descritto nel recente articolo di Friedman e coll., Percorsi di regolarizzazione per modelli lineari generalizzati tramite Discesa delle coordinate (JSS, 2010) o algoritmo LARS. In R, i pacchetti penalizzati , lars o biglars e glmnet sono pacchetti utili; in Python c'è il toolkit scikit.learn , con un'ampia documentazione sugli algoritmi utilizzati per applicare tutti e tre i tipi di schemi di regolarizzazione.

Per quanto riguarda i riferimenti generali, la pagina Lazo contiene la maggior parte di ciò che è necessario per iniziare con la regressione del lazo e i dettagli tecnici sulla penalità L1, e questa domanda correlata presenta riferimenti essenziali, quando dovrei usare lazo vs cresta?


1
E se avessi molte osservazioni con relativamente poche variabili, ma un rapporto segnale-rumore molto basso? Così basso, in effetti, che il sovradimensionamento è un problema molto reale. La regolarizzazione sarebbe una cosa ragionevole da cercare e guardare per migliorare la precisione predittiva?
NPE

1
@aix Dipende da ciò che in realtà chiami poche variabili e da che tipo di variabili hai a che fare. Ma penso che nel tuo caso sia preferibile un approccio a cresta. Puoi anche dare un'occhiata a Boosting Ridge Regression (Tutz & Binder, 2005). È stata anche proposta una stima ML penalizzata come metodo incorporato per prevenire un eccesso di adattamento; vedi ad es. Stima della massima probabilità penalizzata per prevedere i risultati binari: Lune KG, Donders AR, Steyerberg EW, Harrell FE. J. Clin. Epidemiol. 2004, 57 (12): 1262–70.
chl

20

Una giustificazione teorica per l'uso della regressione della cresta è che la sua soluzione è la media posteriore dato un normale precedente sui coefficienti. Cioè, se ti preoccupi dell'errore al quadrato e credi in un precedente normale, le stime della cresta sono ottimali.

Allo stesso modo, la stima del lazo è la modalità posteriore con un doppio esponenziale prima dei tuoi coefficienti. Questo è ottimale con una funzione di perdita pari a zero.

In pratica, queste tecniche generalmente migliorano la precisione predittiva in situazioni in cui si hanno molte variabili correlate e non molti dati. Sebbene lo stimatore OLS sia il migliore imparziale lineare, presenta una varianza elevata in queste situazioni. Se si guarda al trade-biance varianza, l'accuratezza della previsione migliora perché il piccolo aumento della polarizzazione è più che compensato dalla grande riduzione della varianza.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.