Perché ecdf utilizza una funzione step e non un'interpolazione lineare?

Le funzioni empiriche del CDF sono generalmente stimate da una funzione a gradino. C'è un motivo per cui ciò viene fatto in questo modo e non usando un'interpolazione lineare? La funzione Step ha delle interessanti proprietà teoriche che ci fanno preferire?

Ecco un esempio dei due:

ecdf2 <- function (x) {
  x <- sort(x)
  n <- length(x)
  if (n < 1) 
    stop("'x' must have 1 or more non-missing values")
  vals <- unique(x)
  rval <- approxfun(vals, cumsum(tabulate(match(x, vals)))/n, 
                    method = "linear", yleft = 0, yright = 1, f = 0, ties = "ordered")
  class(rval) <- c("ecdf", class(rval))
  assign("nobs", n, envir = environment(rval))
  attr(rval, "call") <- sys.call()
  rval
}


set.seed(2016-08-18)
a <- rnorm(10)
a2 <- ecdf(a)
a3 <- ecdf2(a)

par(mfrow = c(1,2))
curve(a2, -2,2, main = "step function ecdf")
curve(a3, -2,2, main = "linear interpolation function ecdf")

r distributions ecdf

— Tal Galili
fonte

Correlato ...................................

"... stimato da una funzione a gradino" smentisce un sottile malinteso: l'ECDF non è semplicemente stimato da una funzione a gradino; esso è una funzione per definizione. È identico al CDF di una variabile casuale. In particolare, data qualsiasi sequenza finita di numeri , definisce uno spazio di probabilità con , discreto e uniforme. Sia la variabile casuale che assegna a . L'ECDF è la CDF di .

x_{1}, x_{2}, \dots, x_{n}

$x_1, x_2, \ldots, x_n$

(Ω, S, P)

$(\Omega,\mathfrak{S},\mathbb{P})$

Ω = {1, 2, \dots, n}

$\Omega=\{1,2,\ldots, n\}$

S

$\mathfrak{S}$

P

$\mathbb{P}$

X

$X$

x_{i}

$x_i$

i

$i$ $X$ Questa enorme semplificazione concettuale è un argomento convincente per la definizione.

— whuber

È per definizione.

La funzione di distribuzione empirica di un insieme di osservazioni è definita da $(X_n)$

F_{e} (t) = \frac{# {X_{n} ∣ X_{n} \leq t}}{n}

$F_e(t) = \frac{\#\{X_n \mid X_n \le t\}}n$

Dove è la cardinalità impostata. Questa è, per natura, una funzione di passaggio. Converge quasi sicuramente all'attuale CDF . $\#$

Si noti inoltre che per qualsiasi distribuzione con per almeno due (specialmente distribuzioni discrete non degenerate), la variante di ECDF non converge nel CDF effettivo. Ad esempio, considera una distribuzione di Bernoulli con CDF $P(X = x) \ne 0$ $x$

F_{X} (x) = p χ_{x \geq 0} + (1 - p) χ_{x \geq 1}

$F_X(x) = p \chi_{x \ge 0} + (1-p) \chi_{x \ge 1}$ questa è una funzione di passaggio mentre ecdf2 converge in (una funzione lineare a tratti che collega e .

χ_{x \geq 0} \cdot (p + (1 - p) min (x, 1))

$\chi_{x\ge 0} \cdot (p + (1-p)\min(x, 1))$

(0, p)

$(0,p)$

(1, 1)

$(1,1)$

— AlexR
fonte

Grazie Alex. Quindi c'è un altro nome per la funzione che ho scritto? (perché immagino che converge anche al CDF reale)

— Tal Galili,

@TalGalili Non lo fa. Considera una distribuzione di Bernoulli. Il tuo ecdf2 non converge in questo caso. Potresti chiamarlo un ecdf levigato. Ho il sospetto che converrà al CDF effettivo se il CDF effettivo non ha punti con probabilità diversa da zero tranne i punti estremi (dove non si lisciano)

— AlexR

@AlexR potresti modificare la tua risposta per aggiungere questo commento poiché le distribuzioni discrete sono il motivo di tale definito - quindi risponde alla domanda "perché".

— Tim

@Tim Fatto.

${}{}$

— AlexR,

Grazie. C'è un modo per definire una funzione empirica continua che convergere alla funzione step ma che sarebbe completamente monotona (cioè: senza alcun "salto" acuto)?

— Tal Galili,