In parole povere, ci sono tre diverse fonti di errore di predizione:
- il pregiudizio del tuo modello
- la varianza del tuo modello
- varianza inspiegabile
Non possiamo fare nulla riguardo al punto 3 (tranne che per tentare di stimare la varianza inspiegabile e incorporarla nelle nostre densità predittive e intervalli di previsione). Questo ci lascia con 1 e 2.
Se in realtà hai il modello "giusto", allora, diciamo, le stime dei parametri OLS saranno imparziali e avranno una varianza minima tra tutti gli stimatori (lineari) imparziali (sono BLU). Le previsioni da un modello OLS saranno le migliori previsioni lineari imparziali (BLUP). Suona bene.
Tuttavia, risulta che sebbene abbiamo previsioni imparziali e una varianza minima tra tutte le previsioni imparziali, la varianza può essere ancora piuttosto grande. Ancora più importante, a volte possiamo introdurre "un po 'di bias e contemporaneamente salvare" un sacco "di varianza. E ottenendo il compromesso giusto, possiamo ottenere un errore di previsione inferiore con un modello distorto (varianza inferiore) che con un imparziale ( varianza più elevata) uno. Questo si chiama "compromesso di bias varianza" e questa domanda e le sue risposte sono illuminanti: quando uno stimatore distorto è preferibile a uno imparziale?
E la regolarizzazione come il lazo, la regressione della cresta, la rete elastica e così via fanno esattamente questo. Tirano il modello verso lo zero. (Gli approcci bayesiani sono simili: spingono il modello verso i priori.) Pertanto, i modelli regolarizzati saranno distorti rispetto ai modelli non regolarizzati, ma hanno anche una varianza inferiore. Se si sceglie correttamente la regolarizzazione, il risultato è una previsione con un errore inferiore.
Se cerchi "regolarizzazione del trade-biance variance" o simili, ottieni un po 'di spunti di riflessione. Questa presentazione, ad esempio, è utile.
EDIT: l' ameba sottolinea giustamente che sto facendo delle ricerche sul perché esattamente la regolarizzazione produce una varianza più bassa di modelli e previsioni. Considera un modello di lazo con un grande parametro di regolarizzazione . Se , le stime dei parametri del lazo verranno tutte ridotte a zero. Un valore di parametro fisso pari a zero ha varianza zero. (Questo non è del tutto corretto, poiché il valore di soglia di oltre il quale i parametri verranno ridotti a zero dipende dai tuoi dati e dal tuo modello. Ma dato il modello e i dati, puoi trovare unλλ→∞λλtale che il modello è il modello zero. Mantieni sempre i tuoi quantificatori in linea.) Tuttavia, ovviamente, il modello zero avrà anche una propensione gigante. Dopotutto non importa delle osservazioni reali.
E lo stesso vale per i valori non troppo estremi dei parametri di regolarizzazione: i valori piccoli produrranno le stime dei parametri non regolamentate, che saranno meno distorte (imparziali se si dispone del modello "corretto"), ma hanno valori più elevati varianza. "Salteranno in giro", seguendo le tue osservazioni reali. Valori più alti della regolarizzazione "vincolano" sempre più le stime dei parametri. Questo è il motivo per cui i metodi hanno nomi come "lazo" o "rete elastica": limitano la libertà dei parametri di fluttuare e seguire i dati.λ
(Sto scrivendo un piccolo documento su questo, che si spera sia piuttosto accessibile. Aggiungerò un link una volta disponibile.)