Quali sono i vantaggi / gli svantaggi dell'utilizzo di spline, spline levigate ed emulatori di processi gaussiani?


20

Sono interessato a imparare (e implementare) un'alternativa all'interpolazione polinomiale.

Tuttavia, ho difficoltà a trovare una buona descrizione di come funzionano questi metodi, come si relazionano e come si confrontano.

Gradirei il tuo contributo sui pro / contro / condizioni in cui questi metodi o alternative sarebbero utili, ma alcuni buoni riferimenti a testi, diapositive o podcast sarebbero sufficienti.


Questa è davvero una domanda molto interessante, ma forse (solo forse) più appropriata per math.stackexchange.com ?
Steffen,

C'è del materiale sulle spline e sulle spline leviganti in The Elements of Statistical Learning di Hastie et al.
NPE,

8
Penso che questa sia una domanda perfettamente ragionevole sulle statistiche di calcolo.
csgillespie,

@csgillespie: tutto quello che so su spline e interpolazione ho imparato nelle lezioni numeriche / matematiche. Quindi potrei essere un po 'di parte;).
Steffen,

Risposte:


24

La regressione OLS di base è un'ottima tecnica per adattare una funzione a un set di dati. Tuttavia, semplice regressione adatta solo una linea retta che è costante per tutta la gamma possibile di . Questo potrebbe non essere appropriato per una determinata situazione. Ad esempio, i dati a volte mostrano una relazione curvilinea . Questo può essere affrontato regredendo su una trasformazione di , . Sono possibili diverse trasformazioni. In situazioni in cui la relazione tra e è monotona , ma si assottiglia continuamente, una trasformazione del troncoY X f ( X ) X Y X X 2 X 3XYXf(X)XYpuò essere utilizzato. Un'altra scelta popolare è quella di utilizzare un polinomio in cui si formano nuovi termini elevando a una serie di poteri (ad esempio, , , ecc.). Questa strategia è facile da implementare e puoi interpretare l'adattamento nel dirti quante "curve" esistono nei tuoi dati (dove il numero di curve è uguale alla massima potenza necessaria meno 1). XX2X3

Tuttavia, le regressioni basate sul logaritmo o un esponente della covariata si adatteranno in modo ottimale solo quando questa è la natura esatta della vera relazione. È abbastanza ragionevole immaginare che esista una relazione curvilinea tra e diversa dalle possibilità offerte da queste trasformazioni. Quindi, arriviamo ad altre due strategie. Il primo approccio è loess , una serie di regressioni lineari ponderate calcolate su una finestra mobile. Questo approccio è più vecchio e più adatto all'analisi dei dati esplorativi . YXY

L'altro approccio è usare le spline. Al suo più semplice, una spline è un nuovo termine che si applica a solo una parte della gamma di . Ad esempio, può variare da 0 a 1 e il termine spline può variare solo da .7 a 1. In questo caso, .7 è il nodo . Un termine spline semplice e lineare verrebbe calcolato in questo modo: e verrebbe aggiunto al tuo modello, oltre alla originaleX X s p l i n e = { 0XX XX 3 s p l i n e

Xspline={0if X.7X.7if X>.7

Xtermine. Il modello montato mostrerà una brusca interruzione a .7 con una linea retta da 0 a .7 e la linea che continua con una pendenza diversa da .7 a 1. Tuttavia, un termine spline non deve essere lineare. In particolare, è stato determinato che le spline cubiche sono particolarmente utili (ad esempio, ). Neanche la brusca pausa deve esserci. Sono stati sviluppati algoritmi che vincolano i parametri adattati in modo tale che la prima e la seconda derivata corrispondano ai nodi, il che rende impossibile rilevare i nodi nell'output. Il risultato finale di tutto ciò è che con pochi nodi (di solito 3-5) in posizioni scelte (che il software può determinare per te) può riprodurre praticamente qualsiasiXspline3curva. Inoltre, i gradi di libertà sono calcolati correttamente, quindi puoi fidarti dei risultati, il che non è vero quando guardi prima i tuoi dati e poi decidi di adattare un termine quadrato perché hai visto una curva. Inoltre, tutto questo è solo un'altra (anche se più complicata) versione del modello lineare di base. Pertanto, tutto ciò che otteniamo con i modelli lineari viene fornito con questo (ad es. Previsioni, residui, bande di confidenza, test, ecc.) Questi sono vantaggi sostanziali .

La più semplice introduzione a questi argomenti che conosco è:


6

Le note online di Cosma Shalizi sul suo corso di lezione Advanced Data Analysis da un punto di vista elementare sono abbastanza buone su questo argomento, guardando le cose da una prospettiva in cui l'interpolazione e la regressione sono due approcci allo stesso problema. In particolare, vorrei attirare la vostra attenzione sui capitoli sui metodi di lisciatura e sulle spline .


I tuoi link potrebbero utilizzare l'aggiornamento. Ho provato, ma dovresti verificare che le mie modifiche proposte colpiscano le pagine che intendi.
Gregor --state Monica -
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.