La regressione OLS di base è un'ottima tecnica per adattare una funzione a un set di dati. Tuttavia, semplice regressione adatta solo una linea retta che è costante per tutta la gamma possibile di . Questo potrebbe non essere appropriato per una determinata situazione. Ad esempio, i dati a volte mostrano una relazione curvilinea . Questo può essere affrontato regredendo su una trasformazione di , . Sono possibili diverse trasformazioni. In situazioni in cui la relazione tra e è monotona , ma si assottiglia continuamente, una trasformazione del troncoY X f ( X ) X Y X X 2 X 3XYXf(X)XYpuò essere utilizzato. Un'altra scelta popolare è quella di utilizzare un polinomio in cui si formano nuovi termini elevando a una serie di poteri (ad esempio, , , ecc.). Questa strategia è facile da implementare e puoi interpretare l'adattamento nel dirti quante "curve" esistono nei tuoi dati (dove il numero di curve è uguale alla massima potenza necessaria meno 1). XX2X3
Tuttavia, le regressioni basate sul logaritmo o un esponente della covariata si adatteranno in modo ottimale solo quando questa è la natura esatta della vera relazione. È abbastanza ragionevole immaginare che esista una relazione curvilinea tra e diversa dalle possibilità offerte da queste trasformazioni. Quindi, arriviamo ad altre due strategie. Il primo approccio è loess , una serie di regressioni lineari ponderate calcolate su una finestra mobile. Questo approccio è più vecchio e più adatto all'analisi dei dati esplorativi . YXY
L'altro approccio è usare le spline. Al suo più semplice, una spline è un nuovo termine che si applica a solo una parte della gamma di . Ad esempio, può variare da 0 a 1 e il termine spline può variare solo da .7 a 1. In questo caso, .7 è il nodo . Un termine spline semplice e lineare verrebbe calcolato in questo modo:
e verrebbe aggiunto al tuo modello, oltre alla originaleX X s p l i n e = { 0XX XX 3 s p l i n e
Xspline={0X−.7if X≤.7if X>.7
Xtermine. Il modello montato mostrerà una brusca interruzione a .7 con una linea retta da 0 a .7 e la linea che continua con una pendenza diversa da .7 a 1. Tuttavia, un termine spline non deve essere lineare. In particolare, è stato determinato che le spline cubiche sono particolarmente utili (ad esempio, ). Neanche la brusca pausa deve esserci. Sono stati sviluppati algoritmi che vincolano i parametri adattati in modo tale che la prima e la seconda derivata corrispondano ai nodi, il che rende impossibile rilevare i nodi nell'output. Il risultato finale di tutto ciò è che con pochi nodi (di solito 3-5) in posizioni scelte (che il software può determinare per te) può riprodurre praticamente
qualsiasiX3splinecurva. Inoltre, i gradi di libertà sono calcolati correttamente, quindi puoi fidarti dei risultati, il che non è vero quando guardi prima i tuoi dati e poi decidi di adattare un termine quadrato perché hai visto una curva. Inoltre, tutto questo è solo un'altra (anche se più complicata) versione del modello lineare di base. Pertanto, tutto ciò che otteniamo con i modelli lineari viene fornito con questo (ad es. Previsioni, residui, bande di confidenza, test, ecc.) Questi sono vantaggi
sostanziali .
La più semplice introduzione a questi argomenti che conosco è: