Di recente ho creato un po 'di app per browser che puoi usare per giocare con queste idee: Scatterplot Smoothers (*).
Ecco alcuni dati che ho creato, con un adattamento polinomiale di basso grado
È chiaro che il polinomio quadratico non è abbastanza flessibile da adattarsi perfettamente ai dati. Abbiamo regioni con un'inclinazione molto elevata, tra e 0,85 tutti i dati sono al di sotto dell'adattamento e dopo 0,85 tutti i dati sono sopra la curva.0.60.850.85
Per liberarci dal bias, possiamo aumentare il grado della curva a tre, ma il problema rimane, la curva cubica è ancora troppo rigida
Quindi continuiamo ad aumentare il grado, ma ora affrontiamo il problema opposto
Questa curva tiene traccia dei dati troppo da vicino e tende a volare in direzioni non ben supportate da schemi generali nei dati. È qui che entra in gioco la regolarizzazione. Con la stessa curva dei gradi (dieci) e qualche regolarizzazione ben scelta
Abbiamo davvero una bella vestibilità!
Vale la pena concentrarsi su un aspetto di ben scelto sopra. Quando si adattano i polinomi ai dati, si dispone di una serie discreta di opzioni per la laurea. Se una curva di grado tre è insufficiente e una curva di grado quattro è troppo adatta, non hai nessun posto dove andare nel mezzo. La regolarizzazione risolve questo problema, in quanto offre una gamma continua di parametri di complessità con cui giocare.
come si afferma "Abbiamo una vestibilità davvero bella!". Per me sembrano tutti uguali, vale a dire inconcludenti. Quale razionale stai usando per decidere quale è una buona e una cattiva scelta?
Punto valido.
L'ipotesi che sto formulando qui è che un modello ben adattato non dovrebbe avere un modello riconoscibile nei residui. Ora, non sto pianificando i residui, quindi devi fare un po 'di lavoro quando guardi le foto, ma dovresti essere in grado di usare la tua immaginazione.
Nella prima immagine, con la curva quadratica adatta ai dati, posso vedere il seguente modello nei residui
- Da 0,0 a 0,3 sono posizionati in modo uniforme sopra e sotto la curva.
- Da 0,3 a circa 0,55 tutti i punti dati sono sopra la curva.
- Da 0,55 a circa 0,85 tutti i punti dati sono al di sotto della curva.
- Da 0,85 in poi, sono di nuovo tutti sopra la curva.
Definirei questi comportamenti come distorsioni locali , ci sono regioni in cui la curva non si avvicina bene alla media condizionale dei dati.
Confronta questo con l'ultimo adattamento, con la spline cubica. Non riesco a individuare ad occhio nessuna regione in cui l'adattamento non sembra scorrere esattamente attraverso il centro di massa dei punti dati. Questo è generalmente (sebbene imprecisamente) ciò che intendo per una buona misura.
2
- Il loro comportamento ai limiti dei dati può essere molto caotico, anche con la regolarizzazione.
- Non sono locali in alcun senso. La modifica dei dati in un posto può influire in modo significativo sull'adattamento in un posto molto diverso.
Invece, in una situazione come la descrivi, raccomando di usare spline cubiche naturali e regolarizzazione, che offrono il miglior compromesso tra flessibilità e stabilità. Puoi vedere tu stesso inserendo alcune spline nell'app.
(*) Credo che questo funzioni solo su Chrome e Firefox a causa del mio uso di alcune moderne funzionalità javascript (e della pigrizia generale per risolverlo in Safari e ie). Il codice sorgente è qui , se sei interessato.