Come posso adattare una spline a dati che contengono valori e derivazioni 1st / 2nd?

Ho un set di dati che contiene, diciamo, alcune misure per posizione, velocità e accelerazione. Tutti provengono dalla stessa "corsa". Potrei costruire un sistema lineare e adattare un polinomio a tutte quelle misurazioni.

Ma posso fare lo stesso con le spline? Qual è un modo "R" per farlo?

Ecco alcuni dati simulati che vorrei inserire:

f <- function(x) 2+x-0.5*x^2+rnorm(length(x), mean=0, sd=0.1)
df <- function(x) 1-x+rnorm(length(x), mean=0, sd=0.3)
ddf <- function(x) -1+rnorm(length(x), mean=0, sd=0.6)

x_f <- runif(5, 0, 5)
x_df <- runif(8, 3, 8)
x_ddf <- runif(10, 4, 9)

data <- data.frame(type=rep('f'), x=x_f, y=f(x_f))
data <- rbind(data, data.frame(type=rep('df'), x=x_df, y=df(x_df)))
data <- rbind(data, data.frame(type=rep('ddf'), x=x_ddf, y=ddf(x_ddf)))

library(ggplot2)
ggplot(data, aes(x, y, color=type)) + geom_point()


library(splines)
m <- lm(data$y ~ bs(data$x, degree=6)) # but I want to fit on f, df, ddf. possible?

— dani
fonte

Non conosco la risposta alla tua domanda, ma splinefunposso calcolare derivati e presumibilmente potresti usarlo come punto di partenza per adattare i dati usando alcuni metodi inversi? Sono interessato a imparare la soluzione a questo.

— David LeBauer,

Questo problema è stato risolto da Maurice Cox nel suo articolo del 1972. Non so se R lo supporti, ma il termine di ricerca è "Spline di Hermite".

— user14717

@DavidLeBauer questo è quello che sto facendo attualmente. Ho formalizzato un problema di ottimizzazione che si adatta a un numero di punti tale che la spline e i suoi derivati approssimano i dati. Ma un metodo più diretto sarebbe fantastico.

— dani,

Un approccio abbastanza standard è attraverso il filtro Kalman. Lo stato (non osservabile) contiene i derivati esatti e le osservazioni sono versioni rumorose di questi. Ad esempio, il modello per una spline cubica dice approssimativamente che la derivata del secondo ordine è un rumore bianco (tempo continuo), ma può anche essere usato un modello di ordine superiore. Dovrai descrivere il rumore di misurazione in base all'ordine di derivazione per l'osservazione corrente. Tre varianze di rumore (da stimare) possono essere sufficienti in un primo approccio.

— Yves,

qual è l'errore di misurazione sui derivati? è molto più alto della posizione? anche nella tua trama perché i punti arent non sono allineati? cos'è l'asse x?

— Aksakal,

Risposte:

Descriveremo come utilizzare una spline attraverso le tecniche di filtraggio Kalman (KF) in relazione a un modello spazio-stato (SSM). Il fatto che alcuni modelli di spline possano essere rappresentati da SSM e calcolati con KF è stato rivelato da CF Ansley e R. Kohn negli anni 1980-1990. La funzione stimata e i suoi derivati sono le aspettative dello stato subordinate alle osservazioni. Queste stime vengono calcolate utilizzando un livellamento ad intervallo fisso , un'attività di routine quando si utilizza un SSM.

Per semplicità, supponiamo che le osservazioni siano fatte a volte $t_1 < t_2 < \dots < t_n$ e che il numero di osservazione $k$ at $t_k$ coinvolga solo una derivata con ordine $d_k$ in $\{0,\,1,\,2\}$ . La parte di osservazione del modello scrive come

\begin{matrix} (O1) & y (t_{k}) = f^{[d_{k}]} (t_{k}) + ε (t_{k}) \end{matrix}

$\tag{O1} y(t_k) = f^{[d_k]}(t_k) + \varepsilon(t_k)$ dove

f (t)

$f(t)$ indica laverafunzionenon osservatae

ε (t_{k})

$\varepsilon(t_k)$ è un errore gaussiano con varianza

H (t_{k})

$H(t_k)$ base all'ordine di derivazione

d_{k}

$d_k$ . L'equazione di transizione (tempo continuo) assume la forma generale dove è il vettore di stato non osservato e è un rumore bianco gaussiano con covarianza , assunto come indipendente dal rumore di osservazione r.vs . Per descrivere una spline, consideriamo uno stato ottenuto impilando i primi derivati, ovvero . La transizione è

\begin{matrix} (T1) & \frac{d}{d t} α (t) = A α (t) + η (t) \end{matrix}

$\tag{T1} \frac{\text{d}}{\text{d}t}\boldsymbol{\alpha}(t) = \mathbf{A} \boldsymbol{\alpha}(t) + \boldsymbol{\eta}(t)$

α (t)

$\boldsymbol{\alpha}(t)$

η (t)

$\boldsymbol{\eta}(t)$

Q

$\mathbf{Q}$

ε (t_{k})

$\varepsilon(t_k)$

m

$m$

α (t) := [f (t), f^{[1]} (t), \dots, f^{[m - 1]} (t)]^{⊤}

$\boldsymbol{\alpha}(t) := [f(t),\, f^{[1]}(t), \, \dots,\, f^{[m-1]}(t)]^\top$

[\begin{matrix} f^{[1]} (t) \\ f^{[2]} (t) \\ ⋮ \\ f^{[m - 1]} (t) \\ f^{[m]} (t) \end{matrix}] = [\begin{matrix} 0 & 1 & 0 \\ 0 & 0 & 1 \\ ⋮ & ⋱ \\ 1 \\ 0 & \dots & 0 \end{matrix}] [\begin{matrix} f (t) \\ f^{[1]} (t) \\ ⋮ \\ f^{[m - 2]} (t) \\ f^{[m - 1]} (t) \end{matrix}] + [\begin{matrix} 0 \\ 0 \\ ⋮ \\ 0 \\ η (t) \end{matrix}]

$\begin{bmatrix} f^{[1]}(t) \\ f^{[2]}(t) \\ \vdots \\ f^{[m-1]}(t) \\ f^{[m]}(t) \end{bmatrix} = \begin{bmatrix} 0 & 1 & 0 & &\\ 0 & 0 & 1 & & \\ \vdots & & & \ddots &\\ & & & & 1\\ 0 & \dots & & & 0 \end{bmatrix} \begin{bmatrix} f(t) \\ f^{[1]}(t) \\ \vdots \\ f^{[m-2]}(t)\\ f^{[m-1]}(t) \end{bmatrix} + \begin{bmatrix} 0 \\ 0 \\ \vdots\\ 0 \\ \eta(t) \end{bmatrix}$

e quindi otteniamo una spline polinomiale con ordine (e grado ). Mentre corrisponde alla solita spline cubica,

2 m

$2m$

2 m - 1

$2m-1$

m = 2

$m=2$

> 1

$>1$ . Per attenerci a un formalismo SSM classico possiamo riscrivere (O1) come dove la matrice di osservazione seleziona la derivata adatta in e la varianza di viene scelta in base a . Quindi dove , e . Allo stesso modo

\begin{matrix} (O2) & y (t_{k}) = Z (t_{k}) α (t_{k}) + ε (t_{k}), \end{matrix}

$\tag{O2} y(t_k) = \mathbf{Z}(t_k) \boldsymbol{\alpha}(t_k) + \varepsilon(t_k),$

Z (t_{k})

$\mathbf{Z}(t_k)$

α (t_{k})

$\boldsymbol{\alpha}(t_k)$

H (t_{k})

$H(t_k)$

ε (t_{k})

$\varepsilon(t_k)$

d_{k}

$d_k$

Z (t_{k}) = Z_{d_{k} + 1}^{⋆}

$\mathbf{Z}(t_k) = \mathbf{Z}^\star_{d_k + 1}$

Z_{1}^{⋆} := [1, 0, \dots, 0]

$\mathbf{Z}^\star_1 := [1,\,0,\,\dots,\,0]$

Z_{2}^{⋆} := [0, 1, \dots 0]

$\mathbf{Z}^\star_2 := [0,\,1,\,\dots\,0]$

Z_{3}^{⋆} := [0, 0, 1, 0, \dots]

$\mathbf{Z}^\star_3 := [0,\,0,\,1, 0,\,\dots]$

H (t_{k}) = H_{d_{k} + 1}^{⋆}

$H(t_k) = H^\star_{d_k+1}$

per tre varianze , e .

H_{1}^{⋆}

$H^\star_1$

H_{2}^{⋆}

$H^\star_2$

H_{3}^{⋆}

$H^\star_3$

Sebbene la transizione avvenga in un tempo continuo, il KF è in realtà un tempo discreto standard . Infatti, ci sarà a fuoco pratica sui tempi di dove abbiamo un'osservazione, o dove vogliamo stimare i derivati. Possiamo considerare l'insieme come l'unione di questi due insiemi di tempi e supporre che l'osservazione in possa mancare: ciò consente di stimare le derivate in qualsiasi momento indipendentemente dall'esistenza di un'osservazione. Resta da derivare il SSM discreto. $t$ $\{t_k\}$ $t_k$ $m$ $t_k$

Useremo gli indici per tempi discreti, scrivendo per e così via. L'MVU a tempo discreto assume la forma dove le matrici e sono derivati da (T1) e (O2) mentre la varianza di è data da condizione che $\boldsymbol{\alpha}_k$ $\boldsymbol{\alpha}(t_k)$

\begin{aligned} (DT) & α_{k + 1} & = T_{k} α_{k} + η_{k}^{⋆} \\ y_{k} & = Z_{k} α_{k} + ε_{k} \end{aligned}

$\begin{align*} \tag{DT} \boldsymbol{\alpha}_{k+1} &= \mathbf{T}_k \,\boldsymbol{\alpha}_{k} + \boldsymbol{\eta}^\star_{k}\\ y_k &= \mathbf{Z}_k\boldsymbol{\alpha}_k + \varepsilon_k \end{align*}$

T_{k}

$\mathbf{T}_k$

Q_{k}^{⋆} := Var (η_{k}^{⋆})

$\mathbf{Q}_k^\star := \text{Var}(\boldsymbol{\eta}_k^\star)$

ε_{k}

$\varepsilon_k$

H_{k} = H_{d_{k} + 1}^{⋆}

$H_k=H^\star_{d_k+1}$

y_{k}

$y_k$ non manca. Usando un po 'di algebra possiamo trovare la matrice di transizione per il SSM a tempo discreto dove per . Allo stesso modo la matrice di covarianza per il SSM a tempo discreto può essere data come

T_{k} = \exp {δ_{k} A} = [\begin{matrix} 1 & \frac{δ_{k}^{1}}{1!} & \frac{δ_{k}^{2}}{2!} & \dots & \frac{δ_{k}^{m - 1}}{(m - 1)!} \\ 0 & 1 & \frac{δ_{k}^{1}}{1!} \\ ⋮ & ⋱ \\ \frac{δ_{k}^{1}}{1!} \\ 0 & \dots & 1 \end{matrix}],

$\mathbf{T}_k = \exp\left\{ \delta_k \mathbf{A} \right\} = \begin{bmatrix} 1 & \frac{\delta_k^1}{1!} & \frac{\delta_k^2}{2!} & \dots & \frac{\delta_k^{m-1}}{(m-1)!}\\ 0 & 1 & \frac{\delta_k^1}{1!} & & \\ \vdots & & & \ddots &\\ & & & & \frac{\delta_k^1}{1!}\\ 0 & \dots & & & 1 \end{bmatrix}, \qquad$

δ_{k} := t_{k + 1} - t_{k}

$\delta_k:= t_{k+1} - t_{k}$

k < n

$k<n$

Q_{k}^{⋆} = Var (η_{k}^{⋆})

$\mathbf{Q}^\star_k = \text{Var} (\boldsymbol{\eta}_k^\star)$

Q_{k}^{⋆} = σ_{η}^{2} {[\frac{δ_{k}^{2 m - i - j + 1}}{(m - i)! (m - j)! (2 m - i - j + 1)}]}_{i, j}

$\mathbf{Q}^\star_k= \sigma_\eta^2 \, \left[\frac{\delta_k^{2m-i-j+1}}{(m-i)!(m-j)! (2m-i-j+1)}\right]_{i,j}$

dove gli indici e sono compresi tra e .

i

$i$

j

$j$

1

$1$

m

$m$

Ora per portare avanti il calcolo in R abbiamo bisogno di un pacchetto dedicato a KF e che accetti modelli variabili nel tempo; il pacchetto CRAN KFAS sembra una buona opzione. Possiamo scrivere funzioni R per calcolare le matrici e dal vettore dei tempi per codificare il SSM (DT). Nelle notazioni usate dal pacchetto, una matrice viene per moltiplicare il rumore nell'equazione di transizione di (DT): la prendiamo qui come identità . Si noti inoltre che una covarianza iniziale diffusa deve essere utilizzata qui. $\mathbf{T}_k$ $\mathbf{Q}^\star_k$ $t_k$ $\mathbf{R}_k$ $\boldsymbol{\eta}^\star_k$ $\mathbf{I}_m$

EDIT La come inizialmente scritta era sbagliata. Risolto (anche nel codice R e nell'immagine). $\mathbf{Q}^\star$

CF Ansley e R. Kohn (1986) "Sull'equivalenza di due approcci stocastici al livellamento della spline" J. Appl. Probab. , 23, pagg. 391–405

R. Kohn e CF Ansley (1987) "Un nuovo algoritmo per il livellamento della spline basato sul livellamento di un processo stocastico" SIAM J. Sci. e Stat. Comput. , 8 (1), pagg. 33–48

J. Helske (2017). "KFAS: modelli esponenziali dello spazio familiare in R" J. Stat. Morbido. , 78 (10), pagg. 1-39

smoothWithDer <- function(t, y, d, m = 3,
                          Hstar = c(3, 0.2, 0.1)^2, sigma2eta = 1.0^2) {

    ## define the SSM matrices, depending on 'delta_k' or on 'd_k'
    Tfun <- function(delta) {
        mat <-  matrix(0, nrow = m, ncol = m)
        for (i in 0:(m-1)) {
            mat[col(mat) == row(mat) + i] <- delta^i / gamma(i + 1)
        }
        mat
    }
    Qfun <- function(delta) {
        im <- (m - 1):0
        x <- delta^im / gamma(im + 1)
        mat <- outer(X = x, Y = x, FUN = "*")
        im2 <- outer(im, im, FUN = "+")
        sigma2eta * mat * delta / (im2 + 1) 
    }
    Zfun <-  function(d) {
        Z <- matrix(0.0, nrow = 1, ncol = m)
        Z[1, d + 1] <- 1.0
        Z
    }
    Hfun <- function(d) ifelse(d >= 0, Hstar[d + 1], 0.0)
    Rfun <- function() diag(x = 1.0, nrow = m)

    ## define arrays by stacking the SSM matrices. We need one more
    ## 'delta' at the end of the series
    n <- length(t)
    delta <-  diff(t)
    delta <- c(delta, mean(delta))

    Ta <- Qa <- array(0.0, dim = c(m, m, n))
    Za <- array(0.0, dim = c(1, m, n))
    Ha <- array(0.0, dim = c(1, 1, n))
    Ra <-  array(0.0, dim = c(m, m, n))

    for (k in 1:n) {
        Ta[ , , k] <- Tfun(delta[k])
        Qa[ , , k] <- Qfun(delta[k])
        Za[ , , k] <- Zfun(d[k])
        Ha[ , , k] <- Hfun(d[k])
        Ra[ , , k] <- Rfun()
    }

    require(KFAS)
    ## define the SSM and perform Kalman Filtering and smoothing
    mod <- SSModel(y ~ SSMcustom(Z = Za, T = Ta, R = Ra, Q = Qa, n = n,
                                 P1 = matrix(0, nrow = m, ncol = m),
                                 P1inf = diag(1.0, nrow = m), 
                                 state_names = paste0("d", 0:(m-1))) - 1)
    out <- KFS(mod, smoothing = "state")
    list(t = t, filtered = out$att, smoothed = out$alphahat)

}

## An example function as in OP
f <- function(t, d = rep(0, length = length(t))) {
    f <- rep(NA, length(t))
    if (any(ind <- (d == 0))) f[ind] <- 2.0 + t[ind] - 0.5 * t[ind]^2
    if (any(ind <- (d == 1))) f[ind] <- 1.0 - t[ind]
    if (any(ind <- (d == 2))) f[ind] <- -1.0
    f
}

set.seed(123)
n <-  100
t <- seq(from = 0, to = 10, length = n)
Hstar <- c(3, 0.4, 0.2)^2
sigma2eta <- 1.0

fTrue <- cbind(d0 = f(t), d1 = f(t, d = 1), d2 = f(t, d = 2))

## ============================================================================
## use a derivative index of -1 to indicate non-observed values, where
## 'y' will be NA
##
## [RUN #0]  no derivative  m = 2 (cubic spline)
## ============================================================================
d0 <- sample(c(-1, 0), size = n, replace = TRUE, prob = c(0.7, 0.3))
ft0 <-  f(t, d0)
## add noise picking the right sd
y0 <- ft0 + rnorm(n = n, sd = c(0.0, sqrt(Hstar))[d0 + 2])
res0 <- smoothWithDer(t, y0, d0, m = 2, Hstar = Hstar)

## ============================================================================
## [RUN #1] Only first order derivative: we can take m = 2 (cubic spline)
## ============================================================================
d1 <- sample(c(-1, 0:1), size = n, replace = TRUE, prob = c(0.7, 0.15, 0.15))
ft1 <-  f(t, d1)
y1 <- ft1 + rnorm(n = n, sd = c(0.0, sqrt(Hstar))[d1 + 2])
res1 <- smoothWithDer(t, y1, d1, m = 2, Hstar = Hstar)

## ============================================================================
## [RUN #2] First and second order derivative: we can take m = 3
## (quintic spline)
## ============================================================================
d2 <- sample(c(-1, 0:2), size = n, replace = TRUE, prob = c(0.7, 0.1, 0.1, 0.1))
ft2 <-  f(t, d2)
y2 <- ft2 + rnorm(n = n, sd = c(0.0, sqrt(Hstar))[d2 + 2])
res2 <- smoothWithDer(t, y2, d2, m = 3, Hstar = Hstar)

## plots : a ggplot with facets would be better here.
for (run in 0:2) {
    resrun <- get(paste0("res", run))
    drun <- get(paste0("d", run))
    yrun <- get(paste0("y", run))
    matplot(t, resrun$smoothed, pch = 16, cex = 0.7, ylab = "", xlab = "")
    matlines(t, fTrue, lwd = 2, lty = 1)
    for (dv in 0:2) {
        points(t[drun == dv], yrun[drun == dv], cex = 1.2, pch = 22, lwd = 2,
               bg = "white", col = dv + 1)
    }
    title(main = sprintf("run %d. Dots = smooothed, lines = true, square = obs", run))
    legend("bottomleft", col = 1:3, legend = c("d0", "d1", "d2"), lty = 1)
}

— Yves
fonte

La ringrazio per la risposta. Sono molto interessato a questo. Attualmente, non si consente di avere il valore fe la sua derivata da utilizzare in alcuni casi t. Come è possibile utilizzare tutte le informazioni? Ancora una volta, merci per la tua risposta.

— dani,

La mia lettura è che tutto sotto T1 riguarda l'uso di più derivati nella stessa procedura di inferenza. Yves può confermare però.

— eric_kernfeld,

In effetti, puoi usare le dire per un : l'osservazione è quindi un vettore e ha righe le derivate desiderate. Sono sicuro che un comune funziona con KFAS , ma usando NAs potrebbe essere possibile avere anche un tempo che varia .

o_{k} > 1

$o_k >1$

t_{k}

$t_k$

y_{k}

$\mathbf{y}_k$

Z_{k}

$\mathbf{Z}_k$

o_{k}

$o_k$

o > 1

$o>1$

o

$o$

— Yves,

@Yves Ti ho capito bene: Se ho la prima e la seconda derivata nel punto in t_k, poi lo Z_k assomiglia a questo: matrix(c(0,0,0, 0,1,0, 0,0,1), nrow=length(d_k), ncol=m, byrow = T). Quindi, nel complesso, sarebbe un cubo di dimensione "massima derivata" * "grado spline" * "# di passi temporali"

— dani,

Sì @dani, quasi: il numero di righe per tutte le matrici è cioè nell'esempio. Questo è l'ordine derivato più elevato più uno. Inoltre, il grado della spline è , non . Nel tuo esempio poiché non osservi la derivata dell'ordine (la funzione stessa) dovrebbe essere impostato su nelle osservazioni e potresti anche eliminare la prima riga. Tuttavia, sospetto che in questo caso specifico il problema non sia corretto, l'MVU potrebbe non essere osservabile .

Z_{k}

$\mathbf{Z}_k$

{max}_{k} {d_{k} + 1}

$\text{max}_k\{d_k + 1\}$

3

$3$

2 m - 1

$2m-1$

m

$m$

0

$0$ NA

— Yves,

Puoi fare incredibilmente bene con una routine dei minimi quadrati standard, a patto di avere una ragionevole idea delle dimensioni relative degli errori casuali commessi per ogni derivata. Non vi è alcuna restrizione sul numero di misurazioni effettuate per ciascun valore : è anche possibile misurare simultaneamente derivati diversi su ciascuno di essi. L'unica limitazione nell'uso degli Ordinary Least Squares (OLS) è la solita: si assume che le misurazioni siano indipendenti. $x$

L'idea di base può essere espressa più chiaramente astraggendo il problema. Il modello utilizza un set di funzioni (come qualsiasi base spline) come base per la previsione dei valori di una funzione sconosciuta in punti Ciò significa che si cerca di stimare i coefficienti per i quali ciascuna delle combinazioni lineari avvicina accettabilmente a Chiamiamo questo spazio (vettoriale) di combinazioni lineari $p$ $f_j:\mathbb{R}\to\mathbb{R},$ $j=1, 2, \ldots, p$ $y_i = f(x_i)$ $f$ $(x_1, x_2, \ldots, x_n).$ $\beta_j$ $\sum_j \beta_j f_j(x_i)$ $y_i.$ $\mathbb F.$

La particolarità di questo problema è che non osservi necessariamente $y_i.$ Invece, esiste un set definito di funzionali lineari associati ai dati. Ricordiamo che una funzione è una "funzione di una funzione:" ogni assegna un numero a qualsiasi funzione Il modello presuppone che $\mathcal{L}_i$ $\mathcal{L}_i$ $\mathcal{L}_i[f]$ $f\in \mathbb F.$

\begin{matrix} (1) & y_{i} = L_{i} [f] + σ_{i} ε_{i} \end{matrix}

$y_i = \mathcal{L}_i [f] + \sigma_i \varepsilon_i\tag{1}$

dove sono dati funzionali, sono noti fattori di scala e sono variabili casuali indipendenti e distribuite in modo identico. $\mathcal{L}_i$ $\sigma_i \gt 0$ $\varepsilon_i$

Due ipotesi aggiuntive rendono OLS applicabile e statisticamente significativo:

La distribuzione comune di ha una varianza finita. $\varepsilon_i$
Ogni è una funzione lineare . Un funzionale è lineare quando per qualsiasi elemento e numeri corrispondenti $\mathcal{L}_i$ $\mathcal L$ $f_j\in\mathbb{F}$ $\alpha_j,$
$L [\sum_{j} α_{j} f_{j}] = \sum_{j} α_{j} L [f_{j}] .$ $\mathcal{L}\left[\sum_j \alpha_j f_j\right] = \sum_j \alpha_j \mathcal{L}\left[f_j\right].$

(2) consente al modello di essere espresso in modo più esplicito come $(1)$

$y_{i} = β_{1} L_{i} [f_{1}] + \dots + β_{p} L_{i} [f_{p}] + σ_{i} ε_{i} .$ $y_i = \beta_1 \mathcal{L}_i[f_1] + \cdots + \beta_p \mathcal{L}_i[f_p] + \sigma_i \varepsilon_i.$

Il punto centrale di questa riduzione è che, poiché hai stipulato tutti i funzionali tutte le funzioni di base e le deviazioni standard i valori sono tutti numeri - -queste sono solo le solite "variabili" o "caratteristiche" di un problema di regressione - e sono semplicemente pesi (relativi). Pertanto, nel senso ottimale del teorema di Gauss-Markov, OLS è un'ottima procedura da utilizzare. $\mathcal{L}_i,$ $f_j,$ $\sigma_i,$ $\mathcal{L}_i[f_j]$ $\sigma_i$

I funzionali coinvolti nella domanda sono i seguenti:

Valuta in un punto specificato Questo è ciò che facciamo di solito. Questo è lineare perché, per definizione, le combinazioni lineari di funzioni vengono valutate in modo puntuale. $f$ $x:$ $\mathcal{L}[f] = f(x).$
Valuta la derivata in un punto specificato Questo è lineare perché la differenziazione è lineare. $f^\prime$ $x:$ $\mathcal{L}[f] = f^\prime(x).$
Valuta la seconda derivata in un punto specificato $f^{\prime \prime}$ $x:$ $\mathcal{L}[f] = f^{\prime \prime}(x).$

Va bene, come funziona questo approccio? Come al solito, studieremo i residui confrontando i valori adattati con i valori osservati. Poiché posizioni, velocità e accelerazioni sono tutte in unità diverse, dovrebbero essere tracciate su assi separati. $\hat y_i - y_i$ $\hat y_i$

La riga superiore utilizza le curve per rappresentare graficamente e le sue prime due derivate. I punti dati rilevanti sono tracciati sopra le curve: valori osservati a sinistra, derivati osservati nel mezzo e secondi derivati osservati a destra. $\hat y$

La riga inferiore traccia i residui corrispondenti. Come al solito, stiamo cercando una mancanza di qualsiasi relazione apprezzabile: speriamo che i valori residui (le loro coordinate y) variano casualmente da sinistra a destra, mostrando indipendenza e nessuna tendenza.

I valori di dati sono stati generati esattamente come nella domanda (dopo aver impostato il seme di numero casuale su 17 usando per riproducibilità). Ho esplorato accoppiamenti usando gli spazi B-spline generati dalla funzione , anche come nella domanda, per gradi da 1 a 6. Questa figura mostra i risultati per il grado 2, che è il grado più basso (cioè il modello più semplice) esibendo un basso AIC e un buon comportamento residuo, così come il modello indicato da un ANOVA di tutti e sei i modelli (nidificati). $n=23$ set.seed(17) $\mathbb F$ Rbs

La misura è

\hat{y} = - 27.48993 + 2.54078 f_{1} + 2.97679 f_{2}

$\hat y = -27.48993 + 2.54078 f_1 + 2.97679 f_2$

dove e sono le funzioni di base B-spline create da . $f_1$ $f_2$ bs

I residui si comportano bene. Gli attacchi sono buoni. Inoltre, questo approccio ha trovato il modello corretto : i dati sono stati effettivamente generati da una funzione quadratica (grado 2). Inoltre, le deviazioni standard dei residui sono circa delle giuste dimensioni: 0,11, 0,20 e 0,61 rispetto a 0,1, 0,3 e 0,6 utilizzati per generare gli errori originali. È piuttosto sorprendente dato che queste curve ovviamente estrapolano le osservazioni (che non vanno oltre ) e usano un set di dati così piccolo ( ). $x=5$ $n=23$

Infine, i residui degli attacchi per spline di grado superiore sono qualitativamente gli stessi; apportano solo lievi miglioramenti a un costo di utilizzo di modelli meno plausibili. Per gradi sufficientemente alti, iniziano ad oscillare selvaggiamente per piccoli valori di tra i valori osservati, per esempio. Per illustrare questo (cattivo) comportamento, ecco la misura di grado 9: $x$

Infine, ecco un esempio in cui sono state fatte più osservazioni di vari funzionali lineari della base. Il codice per generare queste osservazioni è stato modificato da quello della domanda a

mult <- 2
x_f <- rep(runif(5, 0, 5), mult)       # Two observations per point
x_df <- rep(runif(8, 3, 8), mult)      # Two derivatives per point
x_ddf <- c(x_df, rep(runif(10, 4, 9))  # Derivative and acceleration per point

Il Rcodice per eseguire questi calcoli è piuttosto generale. In particolare, utilizza la differenziazione numerica per trovare le derivate in modo che non dipenda dal tipo di spline utilizzato. Gestisce i diversi valori di ponderando le osservazioni in modo proporzionale a Costruisce e adatta automaticamente una serie di modelli in un ciclo. I funzionali lineari e le deviazioni standard sono codificati. Ce ne sono tre per ciascuno, selezionati in base al valore della variabile nel set di dati. $\sigma_i$ $1/\sigma_i^2.$ $\mathcal{L}_i$ $\sigma_i$ type

Come esempi di come è possibile utilizzare gli adattamenti, la coda stampa i riepiloghi, un elenco dei loro AIC e un ANOVA di tutti.

#
# Estimate spline derivatives at points of `x`.
#
d <- function(x, s, order=1) {
  h <- diff(range(x, na.rm=TRUE))
  dh <- h * 1e-4
  lags <- seq(-order, order, length.out=order+1) * dh/2
  b <- choose(order, 0:order) * (-1)^(order:0)
  y <- b %*% matrix(predict(s, c(outer(lags, x, `+`))), nrow=length(lags))
  y <- matrix(y / (dh^order), nrow=length(x))
}
#
# Fit and plot models by degree.
#
data$order <- c(f=0, df=1, ddf=2)[data$type]
k <- max(data$order)
x <- data$x
w <- (c(0.1, 0.3, 0.6)^(-2))[data$order+1] # As specified in the question

fits <- lapply(1:6, function(deg) {
  #
  # Construct a model matrix.
  #
  s <- bs(x, degree=deg, intercept=TRUE)
  X.l <- lapply(seq.int(k+1)-1, function(i) {
    X <- subset(data, order==i)
    Y <- as.data.frame(d(X$x, s, order=i))
    cbind(X, Y)
  })
  X <- do.call("rbind", X.l)
  #
  # Fit WLS models.
  #
  f <- as.formula(paste("y ~ -1 +", paste0("V", 0:deg+1, collapse="+")))
  fit <- lm(f, X, weights=w)
  msr <- tapply(residuals(fit), data$order, function(r) {
    k <- length(r) - 1 - deg
    ifelse(k >= 1, sum(r^2) / k, 1)
  })
  #
  # Compute predicted values along the graphs.
  #
  X.new <- data.frame(x = seq(min(X$x), max(X$x), length.out=101))
  X.new$y.hat <- predict(s, X.new$x) %*% coefficients(fit)
  X.new$Dy.hat <- d(X.new$x, s, 1) %*% coefficients(fit)
  X.new$DDy.hat <- d(X.new$x, s, 2) %*% coefficients(fit)
  X$Residual <- residuals(fit)
  #
  # Return the model.
  #
  fit$msr <- msr
  fit
})
lapply(fits, function(f) sqrt(f$msr))
lapply(fits, summary)
lapply(fits, AIC)
do.call("anova", fits)

— whuber
fonte

Prima di tutto, voglio ringraziarti per aver posto questa domanda. È una domanda DAVVERO interessante. Adoro le spline e le cose fantastiche che puoi fare con loro. E questo mi ha dato una scusa per fare qualche ricerca. :-)

BLUF: la risposta breve è no. Non conosco alcuna funzionalità in R che lo farà automaticamente per te. La lunga risposta è ... molto più complicata. Il fatto che le derivate e i valori delle funzioni non siano campionati nello stesso posto rende questo più difficile. E il fatto che non si abbia un valore di funzione vicino all'estremità destra dell'intervallo potrebbe renderlo impossibile.

Cominciamo con la spline cubica. Dati punti e le corrispondenti seconde derivate , la spline cubica che li attraversa è: $(x_j, y_j)$ $z_j$

S_{j} (x) = A y_{j} + B y_{j + 1} + C z_{j} + D z_{j + 1}

$S_j(x) = Ay_j + By_{j+1} + Cz_j + Dz_{j+1}$ dove È abbastanza semplice verificare che , , e . Ciò garantisce che la spline e il suo secondo derivato siano continui. Tuttavia, a questo punto, non abbiamo una prima derivata continua . Per forzare la prima derivata a essere continua, abbiamo bisogno del seguente vincolo:

\begin{matrix} h_{j} & = & x_{j + 1} - x_{j} \\ A & = & \frac{x_{j + 1} - x}{h_{j}} \\ B & = & 1 - A \\ C & = & \frac{1}{6} (A^{3} - A) h_{j}^{2} \\ D & = & \frac{1}{6} (B^{3} - B) h_{j}^{2} \end{matrix}

$\begin{array}{} h_j & = & x_{j+1} - x_j \\ A & = & \frac{x_{j+1} - x}{h_j} \\ B & = & 1 - A \\ C & = & \frac{1}{6}(A^3 - A)h_j ^2 \\ D & = & \frac{1}{6}(B^3 - B)h_j ^2 \end{array}$

S_{j} (x_{j}) = y_{j}

$S_j(x_j) = y_j$

S_{j} (x_{j + 1}) = y_{j + 1}

$S_j(x_{j+1}) = y_{j+1}$

S_{j}^{″} (x_{j}) = z_{j}

$S''_j(x_j) = z_j$

S_{j}^{″} (x_{j + 1}) = z_{j + 1}

$S''_j(x_{j+1}) = z_{j+1}$

\begin{matrix} (1) & \frac{6}{h_{j - 1}} y_{j - 1} - (\frac{6}{h_{j - 1}} + \frac{6}{h_{j}}) y_{j} + \frac{6}{h_{j}} y_{j + 1} = h_{j - 1} z_{j - 1} + 2 (h_{j - 1} + h_{j}) z_{j} + h_{j} z_{j + 1} \end{matrix}

$\frac{6}{h_{j-1}}y_{j-1} - \left( \frac{6}{h_{j-1}} + \frac{6}{h_j} \right) y_j + \frac{6}{h_j}y_{j+1} = h_{j-1} z_{j-1} + 2(h_{j-1} + h_j) z_j + h_j z_{j + 1} \tag{1}\label{1}$ Nella classica configurazione della spline cubica, supponi di avere i punti e usi l'equazione (insieme a due vincoli di confine aggiuntivi) per risolvere lo . Una volta che conosci , la spline è completamente specificata e puoi usarla per interpolare in qualsiasi punto arbitrario. Come bonus aggiuntivo, l'equazione si trasforma in una matrice tridiagonale che può essere risolta in tempo lineare!

(x_{j}, y_{j})

$(x_j, y_j)$

(1)

$\eqref{1}$

z_{j}

$z_j$

z_{j}

$z_j$

(1)

$\eqref{1}$

OK, ora supponiamo che, invece di conoscere , tu conosca . Puoi usare l'equazione per risolvere per ? Dal punto di vista dell'algebra pura, sembra fattibile. Ci sono equazioni e incognite, quindi ... perché no? Ma si scopre che non puoi; la matrice sarà singolare. E questo non dovrebbe sorprendere. Come potresti eventualmente interpolare i valori della funzione dati SOLO le seconde derivate? Come minimo, avresti bisogno di un valore iniziale, proprio come un'equazione differenziale. $\eqref{1}$ $y_j$ $N$ $N$

E la tua situazione? Alcuni dei tuoi punti hanno valori di funzione e alcuni dei tuoi punti hanno delle derivate. Per il momento, ignoriamo i primi derivati (sono una specie di pasticcio da affrontare nella base della spline cubica). Formalmente, sia sia l'insieme di punti con valori di funzione e sia l'insieme di punti con seconde derivate. Abbiamo ancora equazioni con incognite. È solo che alcune delle incognite sono e alcune sono . Si scopre che otterrai una soluzione se 0, 1 o 2 E o $(x_i, y_i), i \in \mathcal{I}$ $(x_j, z_j), j \in \mathcal{J}$ $N$ $N$ $y_j$ $z_j$ $\in \mathcal{I}$ $N - 3, N - 2$ $N - 1 \in \mathcal{I}$ . In altre parole, uno dei primi tre punti deve essere un valore di funzione E uno degli ultimi tre punti deve essere un valore di funzione. A parte questo vincolo, sei libero di inserire tutti i derivati che desideri.

Che ne dici di quei primi derivati? È certamente possibile includere i primi derivati nella spline. Ma, come ho detto, diventa molto più disordinato. La prima derivata della spline è data da: Naturalmente, siamo davvero interessati alla derivata ai nodi, quindi possiamo semplificare un po 'valutandola in : Puoi aggiungere questi vincoli alla matrice dall'equazione

S_{j}^{'} (x) = \frac{y_{j + 1} - y_{j}}{h_{j}} - \frac{3 A^{2} - 1}{6} h_{j} z_{j} + \frac{3 B^{2} - 1}{6} h_{j} z_{j + 1}

$S'_j(x) = \frac{y_{j+1} - y_j}{h_j} - \frac{3A^2 - 1}{6} h_j z_j + \frac{3B^2 - 1}{6} h_j z_{j+1}$

x_{j}

$x_j$

S_{j}^{'} (x_{j}) = \frac{y_{j + 1} - y_{j}}{h_{j}} - \frac{1}{3} h_{j} z_{j} - \frac{1}{6} h_{j} z_{j + 1}

$S'_j(x_j) = \frac{y_{j+1} - y_j}{h_j} - \frac{1}{3} h_j z_j - \frac{1}{6} h_j z_{j+1}$

(1)

$\eqref{1}$ e la spline risultante avrà i primi derivati specificati. Inoltre, questo aiuterà con il problema della matrice singolare. Otterrai una soluzione se hai ORA un valore di funzione o una prima derivata nei primi tre e ultimi tre punti.

Quindi ho messo tutto insieme in un po 'di codice ed ecco l'immagine che ho ottenuto:

Come puoi vedere, i risultati non sono eccezionali. Questo perché si tratta di una spline regolare che deve onorare TUTTI i dati. Poiché i dati sono stocastici, abbiamo davvero bisogno di usare una spline di regressione. Questo è un argomento per un altro post. Ma se lavori attraverso la matematica, finirai per ottimizzare una funzione quadratica dell'obiettivo soggetta a vincoli di uguaglianza lineare - e c'è una soluzione a forma chiusa!

— Bill Woessner
fonte