Perché funziona il restringimento?


55

Al fine di risolvere i problemi di selezione del modello, una serie di metodi (LASSO, regressione della cresta, ecc.) Ridurrà i coefficienti delle variabili predittive verso lo zero. Sto cercando una spiegazione intuitiva del perché questo migliora l'abilità predittiva. Se il vero effetto della variabile era in realtà molto grande, perché la riduzione del parametro non determina una previsione peggiore?

Risposte:


48

In parole povere, ci sono tre diverse fonti di errore di predizione:

  1. il pregiudizio del tuo modello
  2. la varianza del tuo modello
  3. varianza inspiegabile

Non possiamo fare nulla riguardo al punto 3 (tranne che per tentare di stimare la varianza inspiegabile e incorporarla nelle nostre densità predittive e intervalli di previsione). Questo ci lascia con 1 e 2.

Se in realtà hai il modello "giusto", allora, diciamo, le stime dei parametri OLS saranno imparziali e avranno una varianza minima tra tutti gli stimatori (lineari) imparziali (sono BLU). Le previsioni da un modello OLS saranno le migliori previsioni lineari imparziali (BLUP). Suona bene.

Tuttavia, risulta che sebbene abbiamo previsioni imparziali e una varianza minima tra tutte le previsioni imparziali, la varianza può essere ancora piuttosto grande. Ancora più importante, a volte possiamo introdurre "un po 'di bias e contemporaneamente salvare" un sacco "di varianza. E ottenendo il compromesso giusto, possiamo ottenere un errore di previsione inferiore con un modello distorto (varianza inferiore) che con un imparziale ( varianza più elevata) uno. Questo si chiama "compromesso di bias varianza" e questa domanda e le sue risposte sono illuminanti: quando uno stimatore distorto è preferibile a uno imparziale?

E la regolarizzazione come il lazo, la regressione della cresta, la rete elastica e così via fanno esattamente questo. Tirano il modello verso lo zero. (Gli approcci bayesiani sono simili: spingono il modello verso i priori.) Pertanto, i modelli regolarizzati saranno distorti rispetto ai modelli non regolarizzati, ma hanno anche una varianza inferiore. Se si sceglie correttamente la regolarizzazione, il risultato è una previsione con un errore inferiore.

Se cerchi "regolarizzazione del trade-biance variance" o simili, ottieni un po 'di spunti di riflessione. Questa presentazione, ad esempio, è utile.

EDIT: l' ameba sottolinea giustamente che sto facendo delle ricerche sul perché esattamente la regolarizzazione produce una varianza più bassa di modelli e previsioni. Considera un modello di lazo con un grande parametro di regolarizzazione . Se , le stime dei parametri del lazo verranno tutte ridotte a zero. Un valore di parametro fisso pari a zero ha varianza zero. (Questo non è del tutto corretto, poiché il valore di soglia di oltre il quale i parametri verranno ridotti a zero dipende dai tuoi dati e dal tuo modello. Ma dato il modello e i dati, puoi trovare unλλλλtale che il modello è il modello zero. Mantieni sempre i tuoi quantificatori in linea.) Tuttavia, ovviamente, il modello zero avrà anche una propensione gigante. Dopotutto non importa delle osservazioni reali.

E lo stesso vale per i valori non troppo estremi dei parametri di regolarizzazione: i valori piccoli produrranno le stime dei parametri non regolamentate, che saranno meno distorte (imparziali se si dispone del modello "corretto"), ma hanno valori più elevati varianza. "Salteranno in giro", seguendo le tue osservazioni reali. Valori più alti della regolarizzazione "vincolano" sempre più le stime dei parametri. Questo è il motivo per cui i metodi hanno nomi come "lazo" o "rete elastica": limitano la libertà dei parametri di fluttuare e seguire i dati.λ

(Sto scrivendo un piccolo documento su questo, che si spera sia piuttosto accessibile. Aggiungerò un link una volta disponibile.)


4
Sembra che il pezzo cruciale del puzzle sia: perché i metodi di contrazione riducono la varianza? (Che introducano qualche pregiudizio è più o meno ovvio.) Semplicemente affermi che lo fanno; puoi fornire qualche intuizione per questo?
ameba dice Ripristina Monica il

2
@Stephan Kolassa Quindi l'aggiunta del termine di penalizzazione tenendo conto della dimensione dei coefficienti aggiunge un po 'di distorsione, ma riduce la variabilità poiché penalizza i coefficienti di grandi dimensioni, che generalmente avranno una maggiore variabilità rispetto ai coefficienti più piccoli. È corretto? Quindi, in definitiva, non siamo così preoccupati di ottenere il valore "corretto" per un particolare coefficiente, siamo solo interessati alla capacità di previsione complessiva del modello?
aspirantestatista

2
@aspiringstatistician: la tua seconda frase è proprio sul segno. (Ricorda George Box sui modelli "sbagliati ma utili".) Non mi preoccuperei tanto se le stime di parametri di grandi dimensioni vengono ridotte più di quelle piccole. Innanzitutto, questo dipenderà dalla standardizzazione. In secondo luogo, se i valori dei parametri di grandi dimensioni sono ben stimati (ovvero con un errore basso), non saranno necessariamente ridotti molto. La regolarizzazione "preferisce" restringere quei parametri che sono definiti male, cioè che hanno una varianza elevata.
S. Kolassa - Ripristina Monica il

3
+1. Buona fortuna con la carta! @aspiringstatistician: ottima osservazione del restringimento non preoccupandosi di ottenere il modello corretto; questo è esattamente giusto (e vale la pena di contemplarlo): il modello correttamente specificato può avere una capacità predittiva peggiore rispetto a quello regolarizzato e "meno vero" (vedere l' Appendice a pagina 307 di questo documento per un esempio).
ameba dice Ripristina Monica il

7
+1. Volevo solo aggiungere che, sebbene la domanda riguardasse l' intuizione dietro i modelli regolarizzati, sembra un po 'incompleto non menzionare la derivazione bayesiana di questi modelli. Ad esempio, quando si confronta la regressione della cresta con la semplice MLE, nella maggior parte delle applicazioni mi sembra naturale pensare all'effetto che viene attinto da una distribuzione normale, anziché a una distribuzione uniforme (impropria). Quindi vedere queste tecniche sia come casi speciali di stima MAP rende chiaro perché si dovrebbe scegliere la regressione della cresta.
jlimahaverford,

10

Solo per aggiungere qualcosa alla bella risposta di @ Kolassa, l'intera questione delle stime di contrazione è legata al paradosso di Stein . Per i processi multivariati con , il vettore delle medie campionarie non è ammissibile. In altre parole, per un certo valore di parametro, esiste uno stimatore diverso con un rischio atteso inferiore. Stein ha proposto uno stimatore di contrazione come esempio. Quindi abbiamo a che fare con la maledizione della dimensionalità, poiché il restringimento non ti aiuta quando hai solo 1 o 2 variabili indipendenti.p3

Leggi questa risposta per ulteriori informazioni. Apparentemente, il paradosso di Stein è legato al noto teorema secondo cui un processo di movimento browiano in 3 o più dimensioni non è ricorrente (vaga in tutto il luogo senza tornare all'origine), mentre i browniani 1 e 2 dimensionali sono ricorrenti.

Il paradosso di Stein vale indipendentemente da ciò a cui ti restringi, anche se in pratica lo fa meglio se ti restringi verso i valori dei parametri reali. Questo è ciò che fanno i bayesiani. Pensano di sapere dove sia il vero parametro e si restringono verso di esso. Quindi affermano che Stein convalida la loro esistenza.

Si chiama paradosso proprio perché sfida il nostro intuito. Tuttavia, se si pensa al moto browniano, l'unico modo per ottenere un movimento browniano 3D per tornare all'origine sarebbe imporre una penalità di smorzamento sui gradini. Uno stimatore del restringimento impone anche una sorta di smorzatore sulle stime (riduce la varianza), motivo per cui funziona.


Hai un riferimento per la connessione tra il paradosso di Stein e i processi browniani?
kjetil b halvorsen,

1
Segui il mio link sotto "Leggi questa risposta per di più". C'è un collegamento in quella risposta a un documento che stabilisce la connessione.
Placidia,

gli stimatori bayes sono ammissibili dal teorema di classe completo: non ha nulla a che fare direttamente con lo stimatore JS. Tuttavia, il risultato che JS domina la media del campione ha reso le persone più interessate allo studio degli stimatori di bayes. (Mi oppongo all'affermazione secondo cui i bayesiani "affermano che Stein convalida la loro esistenza")
user795305
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.