Perché usare la regolarizzazione nella regressione polinomiale invece di abbassare il grado?


32

Quando si esegue la regressione, ad esempio, due iper parametri da scegliere sono spesso la capacità della funzione (ad es. Il più grande esponente di un polinomio) e la quantità di regolarizzazione. Ciò di cui sono confuso, è perché non scegliere semplicemente una funzione a bassa capacità e quindi ignorare qualsiasi regolarizzazione? In questo modo, non si adatta eccessivamente. Se ho una funzione ad alta capacità insieme alla regolarizzazione, non è la stessa cosa che avere una funzione a bassa capacità e nessuna regolarizzazione?

Risposte:


49

Di recente ho creato un po 'di app per browser che puoi usare per giocare con queste idee: Scatterplot Smoothers (*).

Ecco alcuni dati che ho creato, con un adattamento polinomiale di basso grado

Vestibilità quadratica

È chiaro che il polinomio quadratico non è abbastanza flessibile da adattarsi perfettamente ai dati. Abbiamo regioni con un'inclinazione molto elevata, tra e 0,85 tutti i dati sono al di sotto dell'adattamento e dopo 0,85 tutti i dati sono sopra la curva.0.60.850.85

Per liberarci dal bias, possiamo aumentare il grado della curva a tre, ma il problema rimane, la curva cubica è ancora troppo rigida

Vestibilità cubica

Quindi continuiamo ad aumentare il grado, ma ora affrontiamo il problema opposto

Dieci gradi in forma

Questa curva tiene traccia dei dati troppo da vicino e tende a volare in direzioni non ben supportate da schemi generali nei dati. È qui che entra in gioco la regolarizzazione. Con la stessa curva dei gradi (dieci) e qualche regolarizzazione ben scelta

Laurea Dieci Regolarizzazione

Abbiamo davvero una bella vestibilità!

Vale la pena concentrarsi su un aspetto di ben scelto sopra. Quando si adattano i polinomi ai dati, si dispone di una serie discreta di opzioni per la laurea. Se una curva di grado tre è insufficiente e una curva di grado quattro è troppo adatta, non hai nessun posto dove andare nel mezzo. La regolarizzazione risolve questo problema, in quanto offre una gamma continua di parametri di complessità con cui giocare.

come si afferma "Abbiamo una vestibilità davvero bella!". Per me sembrano tutti uguali, vale a dire inconcludenti. Quale razionale stai usando per decidere quale è una buona e una cattiva scelta?

Punto valido.

L'ipotesi che sto formulando qui è che un modello ben adattato non dovrebbe avere un modello riconoscibile nei residui. Ora, non sto pianificando i residui, quindi devi fare un po 'di lavoro quando guardi le foto, ma dovresti essere in grado di usare la tua immaginazione.

Nella prima immagine, con la curva quadratica adatta ai dati, posso vedere il seguente modello nei residui

  • Da 0,0 a 0,3 sono posizionati in modo uniforme sopra e sotto la curva.
  • Da 0,3 a circa 0,55 tutti i punti dati sono sopra la curva.
  • Da 0,55 a circa 0,85 tutti i punti dati sono al di sotto della curva.
  • Da 0,85 in poi, sono di nuovo tutti sopra la curva.

Definirei questi comportamenti come distorsioni locali , ci sono regioni in cui la curva non si avvicina bene alla media condizionale dei dati.

Confronta questo con l'ultimo adattamento, con la spline cubica. Non riesco a individuare ad occhio nessuna regione in cui l'adattamento non sembra scorrere esattamente attraverso il centro di massa dei punti dati. Questo è generalmente (sebbene imprecisamente) ciò che intendo per una buona misura.


2

  • Il loro comportamento ai limiti dei dati può essere molto caotico, anche con la regolarizzazione.
  • Non sono locali in alcun senso. La modifica dei dati in un posto può influire in modo significativo sull'adattamento in un posto molto diverso.

Invece, in una situazione come la descrivi, raccomando di usare spline cubiche naturali e regolarizzazione, che offrono il miglior compromesso tra flessibilità e stabilità. Puoi vedere tu stesso inserendo alcune spline nell'app.

Spline cubiche naturali

(*) Credo che questo funzioni solo su Chrome e Firefox a causa del mio uso di alcune moderne funzionalità javascript (e della pigrizia generale per risolverlo in Safari e ie). Il codice sorgente è qui , se sei interessato.


3
Grazie, e il tuo strumento browser è fantastico - Adoro piccole demo interattive come quella!
Karnivaurus,

@Karnivaurus Grazie, sono felice di poterti aiutare. Lo strumento è stato divertente da costruire, mi piace scrivere javascript:)
Matthew Drury

3
+6. Ottimo lavoro scrivendo questo strumento! Otterrai una taglia da me una volta che il filo sarà abbastanza grande da farne una taglia.
ameba dice di reintegrare Monica il

4
+1 Questa è davvero una buona risposta. Un modo per mostrare l'instabilità dell'adattamento polinomiale di alto grado sarebbe quello di tracciare la regressione di alto ordine con un punto dati rimosso per ogni punto e contrastarlo con la soluzione RCS.
Sycorax dice Reinstate Monica il

1
@MatthewDrury "spline cubiche limitate" - mi dispiace per quello.
Sycorax dice di reintegrare Monica il

4

No, non è lo stesso. Confronta, ad esempio, un polinomio di secondo ordine senza regolarizzazione con un polinomio di quarto ordine con esso. Quest'ultimo può sostenere grandi coefficienti per la terza e la quarta potenza, purché ciò aumenti l'accuratezza predittiva, secondo qualunque procedura venga utilizzata per scegliere la dimensione della penalità per la procedura di regolarizzazione (probabilmente la validazione incrociata). Ciò dimostra che uno dei vantaggi della regolarizzazione è che consente di regolare automaticamente la complessità del modello per trovare un equilibrio tra eccesso e insufficienza.


Ma se aggiungi la regolarizzazione a un polinomio del quarto ordine, questo gli impedisce di sfruttare appieno la sua espressività. Quindi, con una regolarizzazione sufficiente, l'espressività si ridurrà al punto in cui è espressiva come un polinomio di secondo ordine. No?
Karnivaurus,

1
Forse se hai fissato la tua penalità in anticipo, ma che senso ha? La dimensione della penalità dovrebbe essere scelta in base ai dati.
Kodiologo,

4

Per i polinomi anche piccoli cambiamenti nei coefficienti possono fare la differenza per gli esponenti più alti.

L2


2

Tutte le risposte sono fantastiche e ho simulazioni simili con Matt per darti un altro esempio per mostrare perché un modello complesso con regolarizzazione è di solito migliore del modello semplice .

Ho fatto un'analogia per avere una spiegazione intuitiva.

  • Caso 1 hai solo uno studente delle scuole superiori con conoscenze limitate (un modello semplice senza regolarizzazione)
  • Caso 2 hai uno studente laureato ma lo limiti a usare le conoscenze delle scuole superiori solo per risolvere i problemi. (modello complesso con regolarizzazione)

Se due persone stanno risolvendo lo stesso problema, di solito gli studenti laureati lavorerebbero meglio, perché l'esperienza e le intuizioni sulla conoscenza.

La Figura 1 mostra 4 raccordi con gli stessi dati. 4 raccordi sono linea, parabola, modello del 3 ° ordine e modello del 5 ° ordine. È possibile osservare che il modello del 5 ° ordine potrebbe presentare un problema di adattamento eccessivo.

inserisci qui la descrizione dell'immagine

D'altra parte, nel secondo esperimento, useremo il modello del 5 ° ordine con diversi livelli di regolarizzazione. Confronta l'ultimo con il modello del secondo ordine. (due modelli sono evidenziati) troverai che l'ultimo è simile (approssimativamente ha la stessa complessità del modello) alla parabola, ma leggermente più flessibile rispetto ai dati.

inserisci qui la descrizione dell'immagine


1
"hanno approssimativamente la stessa complessità del modello" ... questo è visivamente il confronto "ovvio", esiste un modo matematico per misurarlo?
Silverfish
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.