Alternativa alla distribuzione empirica


13

BOUNTY:

La generosità sarà assegnata a qualcuno che fornisce un riferimento a qualsiasi documento pubblicato che utilizza o menziona lo stimatore seguito.F~

Motivazione:

Questa sezione probabilmente non è importante per te e sospetto che non ti aiuterà a ottenere la generosità, ma dato che qualcuno ha chiesto della motivazione, ecco a cosa sto lavorando.

Sto lavorando a un problema di teoria dei grafi statistici. Il grafico denso standard che limita l'oggetto è una funzione simmetrica nel senso che . Il campionamento di un grafico su vertici può essere considerato come il campionamento di valori uniformi sull'intervallo di unità ( per ) e quindi la probabilità di un bordo è . Lasciare che la matrice di adiacenza risultante viene chiamato .W:[0,1]2[0,1]W(u,v)=W(v,u)nnUii=1,,n(i,j)W(Ui,Uj)A

Possiamo considerare come una densità supponendo che \ iint W> 0 . Se stimiamo f in base ad A senza alcun vincolo per f , non possiamo ottenere una stima coerente. Ho trovato un risultato interessante sulla stima coerente di f quando f proviene da un insieme limitato di possibili funzioni. Da questo stimatore e \ somma A , possiamo stimare W .WW > 0 f A f f f A Wf=W/WW>0fAfffAW

Sfortunatamente, il metodo che ho trovato mostra coerenza quando campioniamo dalla distribuzione con densità . Il modo in cui è costruito richiede che io campioni una griglia di punti (invece di prendere i sorteggi dalla originale ). In questa domanda stats.SE, sto chiedendo il problema 1 dimensionale (più semplice) di cosa succede quando possiamo solo campionare Bernoullis su una griglia come questa piuttosto che campionare direttamente dalla distribuzione.A ffAf

riferimenti per i limiti del grafico:

L. Lovasz e B. Szegedy. Limiti di sequenze di grafi densi ( arxiv ).

C. Borgs, J. Chayes, L. Lovasz, V. Sos e K. Vesztergombi. Sequenze convergenti di grafici densi i: Frequenze dei sottografi, proprietà metriche e prove. ( arxiv ).

Notazione:

Considera una distribuzione continua con cdf e pdf che ha un supporto positivo sull'intervallo . Supponiamo che non abbia puntiforme, è ovunque differenziabile e anche che è il supremo di nell'intervallo . Lasciate significa che la variabile casuale è campionato dalla distribuzione . sono variabili casuali uniformi su .Ff[0,1]fFsupz[0,1]f(z)=c<f[0,1]XFXFUi[0,1]

Problema impostato:

Spesso, possiamo lasciare che siano variabili casuali con distribuzione e lavorino con la solita funzione di distribuzione empirica come dove è la funzione indicatore. Si noti che questa distribuzione empirica è essa stessa casuale (dove è fisso). F F n ( t ) = 1X1,,XnFI F n(t)t

F^n(t)=1ni=1nI{Xit}
IF^n(t)t

Purtroppo, non sono in grado di trarre campioni direttamente da . Tuttavia, so che ha un supporto positivo solo su e posso generare variabili casuali dove è una variabile casuale con una distribuzione di Bernoulli con probabilità di successo dove la e sono definite sopra. Quindi, . Un modo ovvio per stimare da questi valori è quello di prendere dovef [ 0 , 1 ] Y 1 , , Y n Y i p i = f ( ( i - 1 + U i ) / n ) / c c U i Y iBerna ( p i ) F Y i ˜ F n ( t ) = 1Ff[0,1]Y1,,YnYi

pi=f((i1+Ui)/n)/c
cUiYiBern(pi)FYi n i = 1 Yi=0 ˜ F (t)Yi
F~n(t)=1i=1nYii=1tnYi
è la funzione controsoffitto (ovvero arrotondare semplicemente al numero intero più vicino) e ridisegnare se (per evitare di dividere per zero e far crollare l'universo) . Nota che è anche una variabile casuale poiché sono variabili casuali.i=1nYi=0F~(t)Yi

Domande:

Da (quello che penso dovrebbe essere) dal più facile al più difficile.

  1. Qualcuno sa se questo (o qualcosa di simile) ha un nome? Potete fornire un riferimento dove posso vedere alcune delle sue proprietà?F~n

  2. Come , uno stimatore coerente di (e puoi dimostrarlo)?˜ F n ( t ) F ( t )nF~n(t)F(t)

  3. Qual è la distribuzione limitante di come ?nF~n(t)n

  4. Idealmente, vorrei quanto segue in funzione di - ad es. , ma non so quale sia la verità. acronimo di Big O in probabilitàO P ( log ( n ) / nOPOP(log(n)/n)OP

supC[0,1]C|F~n(t)F(t)|dt

Alcune idee e note:

  1. Questo assomiglia molto al campionamento del rifiuto di accettazione con una stratificazione basata sulla griglia. Si noti che non è così perché non si disegna un altro campione se si rifiuta la proposta.

  2. Sono abbastanza sicuro che questo sia distorto. Penso che l'alternativa è imparziale, ma ha la proprietà spiacevole che . ~ F n(t)=cF~nP( ~ F (1)=1)<1

    F~n(t)=cni=1tnYi
    P(F~(1)=1)<1
  3. Sono interessato a utilizzare come stimatore del plug-in . Non penso che si tratti di informazioni utili, ma forse conosci qualche ragione per cui potrebbe essere.F~n

Esempio in R

Ecco un codice R se vuoi confrontare la distribuzione empirica con . Mi dispiace che alcuni dei rientri siano sbagliati ... Non vedo come risolverli.F~n

# sample from a beta distribution with parameters a and b
a <- 4 # make this > 1 to get the mode right
b <- 1.1 # make this > 1 to get the mode right
qD <- function(x){qbeta(x, a, b)} # inverse
dD <- function(x){dbeta(x, a, b)} # density
pD <- function(x){pbeta(x, a, b)} # cdf
mD <- dbeta((a-1)/(a+b-2), a, b) # maximum value sup_z f(z)


# draw samples for the empirical distribution and \tilde{F}
draw <- function(n){ # n is the number of observations
  u <- sort(runif(n)) 
  x <- qD(u) # samples for empirical dist
  z <- 0 # keep track of how many y_i == 1
  # take bernoulli samples at the points s
  s <- seq(0,1-1/n,length=n) + runif(n,0,1/n) 
  p <- dD(s) # density at s
  while(z == 0){ # make sure we get at least one y_i == 1
    y <- rbinom(rep(1,n), 1, p/mD) # y_i that we sampled
    z <- sum(y)
  }
  result <- list(x=x, y=y, z=z)
  return(result)
}

sim <- function(simdat, n, w){
  # F hat -- empirical dist at w
  fh <- mean(simdat$x < w) 
  # F tilde
  ft <- sum(simdat$y[1:ceiling(n*w)])/simdat$z
  # Uncomment this if we want an unbiased estimate.
  # This can take on values > 1 which is undesirable for a cdf.
  ### ft <- sum(simdat$y[1:ceiling(n*w)]) * (mD / n)
  return(c(fh, ft))
}


set.seed(1) # for reproducibility

n <- 50 # number observations
w <- 0.5555 # some value to test this at (called t above)
reps <- 1000 # look at this many values of Fhat(w) and Ftilde(w)
# simulate this data
samps <- replicate(reps, sim(draw(n), n, w))

# compare the true value to the empirical means
pD(w) # the truth 
apply(samps, 1, mean) # sample mean of (Fhat(w), Ftilde(w))
apply(samps, 1, var)  # sample variance of (Fhat(w), Ftilde(w))
apply((samps - pD(w))^2, 1, mean) # variance around truth


# now lets look at what a single realization might look like
dat <- draw(n)
plot(NA, xlim=0:1, ylim=0:1, xlab="t", ylab="empirical cdf",
     main="comparing ECDF (red), Ftilde (blue), true CDF (black)")
s <- seq(0,1,length=1000)
lines(s, pD(s), lwd=3) # truth in black
abline(h=0:1)
lines(c(0,rep(dat$x,each=2),Inf),
     rep(seq(0,1,length=n+1),each=2),
     col="red")
lines(c(0,rep(which(dat$y==1)/n, each=2),1),
      rep(seq(0,1,length=dat$z+1),each=2),
      col="blue")

uscita dai dati sopra

Modifiche:

EDIT 1 -

L'ho modificato per rispondere ai commenti di @buber.

EDIT 2 -

Ho aggiunto il codice R e l'ho pulito un po 'di più. Ho cambiato leggermente la notazione per leggibilità, ma è essenzialmente la stessa. Sto programmando di fare una taglia su questo non appena mi sarà permesso, quindi per favore fatemi sapere se volete ulteriori chiarimenti.

EDIT 3 -

Penso di aver affrontato le osservazioni di @ cardinal. Ho corretto i refusi nella variazione totale. Sto aggiungendo una taglia.

EDIT 4 -

Aggiunta una sezione "motivazione" per @cardinal.


1
La tua domanda ha iniziato a diventare ambigua nel momento in cui hai fatto riferimento a oggetti non definiti e ad usare una notazione idiosincratica. Ad esempio, appare all'inizio ma non ha alcuna connessione apparente con ed è solo leggendo molto più avanti che apprendiamo che la stai pensando come "non una distribuzione discreta" - ma che tipo di oggetto è? Fondamentalmente, cosa significa " ?" "di solito significa supremum, ma forse ha qualcosa a che fare con il supporto essenziale di una distribuzione? Perché tutto nella domanda dipende da cosa significano, non posso avere senso della domandaF sup z f ( z ) supfFsupzf(z)sup
whuber

1
Grazie @whuber per i tuoi commenti. Per favore fatemi sapere se la domanda rivista è ancora confusa.
user1448319

1
Aha! Questa è la prima indicazione che ho visto che non è fisso e che sei interessato agli asintotici. Se è vero che hai la flessibilità di scegliere , ciò non apre molte possibilità, come le scelte adattive dei punti campione (piuttosto che limitare a una griglia fissa )? È anche evidente che stai facendo ipotesi non dichiarate, in modo tale che sia continuo (equivalentemente, è assolutamente continuo ). Cos'altro puoi assumere riguardo alla distribuzione sottostante che può aiutare con questa analisi? n { i / n } f F Fnn{i/n}fFF
whuber

2
Un paio di altre domande / osservazioni: sembra implicitamente basato su come stai proponendo di costruire che stai davvero prendendo in considerazione un array triangolare , ai fini dell'analisi di convergenza. Da come costruisci la , sembra che dovresti anche essere in grado (altrettanto facilmente) di campionare le variabili casuali di Bernoulli con probabilità condizionale di successo dove è una variabile casuale uniforme. È vero? (Un po 'più di contesto alla tua domanda probabilmente risolverebbe molte di queste domande.) Saluti. Y i , n i = 1 , , n p i f ( U ) / c UpiYi,ni=1,,npif(U)/cU
cardinale

2
Questa domanda è stata migliorata così tanto che non l'ho nemmeno riconosciuta fino a quando non ho realizzato di aver visto i commenti prima. Ora è una domanda davvero interessante e molto più ben scritta.
Glen_b

Risposte:


1

Mentre questo riferimento

EDIT: AGGIUNTO RIFERIMENTO A STATISTICHE MOLTO SIMILI "Stima non parametrica da osservazioni incomplete" EL Kaplan e Paul Meier, Journal of American Statistical Association, Vol. 53, n. 282 (giugno 1958), pagg. 457-481

non è per il tuo stimatore simile a ECDF su Credo che sia logicamente equivalente allo stimatore Kaplan-Meier (noto anche come stimatore del limite del prodotto) utilizzato nell'analisi di sopravvivenza, anche se applicato a un intervallo di tempo .[0,1][0,)

Stimare il bias sarebbe possibile una volta che avessi una stima ragionevole della distribuzione tramite smoothing del kernel se si comporta abbastanza bene (vedi, ad esempio, la trasformazione di Khmaladze su Wikipedia).

Nel caso bivariato nel tuo problema grafico, stimare da sebbene con un banale vincolo di simmetria sembra simile all'approccio di Jean-David Fermanian, Dragan Radulovic e Marten Wegkamp (2004), Debole convergenza della copula empirica processi , Bernoulli , vol. 10, n. 5, 847–860, come indicato da @cardinale "Metodo delta multivariato".f=W/WA


0

Questo risponde alle domande 2 e 3 sopra. Voglio comunque davvero un riferimento (dalla domanda 1).

Questo non tiene ancora conto quando .Yi=0

Prendi in considerazione , quindi dove gli indici indicano i derivati. Richiama . Let Quindi nota che e . Anche, g(A,B)=A/(A+B)

gA(A,B)=(A+B)1+A(A+B)2gB(A,B)=A(A+B)2gAA(A,B)=2B(A+B)3gAB(A,B)=(AB)(A+B)3gBB(B,B)=2A(A+B)3
pi=f((i1+Ui)/n)/c
R=1ni=1ntYi,μR=E(R)=0tp(u)du=c1F(t)S=1nnt+1nYi,μS=E(S)=t1p(u)du=c1(1F(t))
μR+μS=c1F(t)+c1(1F(t))=c1g(μR,μS)=F(t)
 Var(R)=1n2i=1nt Var(Yi)=1n0tf(u)/c(1f(u)/c)du=1nc20tf(u)(cf(u))du Var(S)=1nc2t1f(u)(cf(u))du
Nota che per indipendenza di s. Cov(R,S)=0Yi

Ora, usiamo un'espansione di Taylor per ottenere

E(F~n(t))=E(1i=1nYii=1tnYi)=E(nRnR+nS)=E(RR+S)=E(g(R,S))=g(μR,μS)+12E((RμR)2)gRR(μR,μS)+E((RμR)(SμS))gRS(μR,μS)+12E((SμS)2)gSS(μR,μS)+=F(t)+12E((RμR)2)2μS(μR+μS)3+E((RμR)(SμS))(μRμS)(μR+μS)3+12E((SμS)2)2μR(μR+μS)3+=F(t)+(μR+μS)3(E((RμR)2)μS+E((RμR)(SμS))(μRμS)+E((SμS)2)μR)+=F(t)+c3( Var(R)c(1F(t))+ Cov(R,S)(cF(t)c(1F(t)))+ Var(S)cF(t))+=F(t)+c4((1n0tf(u)(cf(u))du)(1F(t))+(1nt1f(u)(cf(u))du)F(t))+=F(t)+V~F(t)/n+=F(t)+O(n1)
dove In particolare, otteniamo
V~F(t)=c2(0tf(u)(cf(u))du)(1F(t))+c2(t1f(u)(cf(u))du)F(t)<c2(0tcf(u)du)(1F(t))+c2(t1cf(u)du)F(t)<c32F(t)(1F(t))
n(F~n(t)F(t))dN(0,VF(t))

Si prega di commentare se si vede qualcosa di sbagliato in questo.

Modifiche:

Modifica 1 -

Risolto un refuso in . Grazie @cardinal per il tuo suggerimento nei commenti sulla domanda 4.VF(t)

Modifica 2 -

Risolti molti errori di battitura: avevo dove avrei dovuto avere in molti posti. Devo ancora rispondere alla risposta di @ cardinale su .c1cYi=0


1
Caro @utente: questo è sulla strada giusta; ecco alcuni suggerimenti. ( 1 ) La media di non esiste, almeno fino a quando non specifichi cosa succede quando , quindi in senso stretto l'analisi nella risposta non è corretta. Definire un comportamento a zero romperà la struttura dell'indipendenza, ma non tutto è perduto. ( 2 ) In sostanza, quello che stai facendo è applicare il metodo delta multivariato. Nota che questo non richiede l'esistenza della media di , quindi sarà più pulito (e più corretto) se segui questa strada. F~n(t)iYi=0F~n(t)
cardinale il

2
( 3 ) L'articolo 4 dell'elenco viene gestito come segue. Nota cheIl primo termine sul lato destro, , è, quindi è chiaramente . Ti resta solo da fare con il medio termine, ma ciò soccombe prontamente alla disuguaglianza di Markov seguita da quella di Jensen ed è anche .
supC[0,1]C|F~F|sup[0,1]|F~F~|+01|F~EF~|+O(n1).
{iYi>0}|1cn1iYi|Op(n1/2)Op(n1/2)
cardinale il

Gentile utente @: sarebbe utile vedere qualche ulteriore elaborazione della tua osservazione in merito alla non necessità di considerare il caso . Quello che stai descrivendo è il campionamento condizionale. Le condizioni su non sono indipendenti (o condizionatamente indipendenti), quindi l'analisi (implicita) nella risposta non regge. Potrebbe essere utile guardare il caso per vedere questo (basta disegnare la tabella ). iYi=0Yi{iYi>0}n=22×2
cardinale il

A parte questo, può valere la pena notare che, quindi questa definizione può essere semplificata. supCC|F~F|=01|F~F|
cardinale il
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.