Numero previsto di volte in cui la media empirica supererà un valore


11

Data una sequenza di variabili casuali iid, diciamo per , sto cercando di limitare il numero previsto di volte la media empirica supererà un valore, , mentre continuiamo a disegnare campioni, ovvero: i = 1 , 2 , . . . , n 1Xi[0,1]i=1,2,...,nc0T d e f = n j=1P({ 11ni=1nXic0

T=defj=1nP({1ji=1jXic})

Se assumiamo che per alcuni , possiamo usare la disuguaglianza di Hoeffding per arrivare aa > 0c=a+E[X]a>0

Tj=1ne2ja2=1e2a2ne2a21

Che sembra bello (forse) ma in realtà è abbastanza legato, ci sono modi migliori per limitare questo valore? Mi aspetto che ci possa essere un modo poiché i diversi eventi (per ogni ) sono chiaramente non indipendenti, non sono a conoscenza di alcun modo per sfruttare questa dipendenza. Inoltre, sarebbe bello rimuovere la restrizione che è maggiore della media.cjc

modifica : la restrizione che sia maggiore della media può essere rimossa se usiamo la disuguaglianza di Markov come segue:c

Tj=1n1jE[X]c=E[X]Hnc
Che è più generale, ma molto peggio del limite sopra, sebbene sia chiaro che deve divergere ogni volta che . c E [ X ]TcE[X]

La tua definizione di non coincide con la tua descrizione. Se i " " fossero rimossi sarebbe il numero previsto di superamenti di , ma come scritto è una combinazione lineare dei tempi . Non è manifestamente un'aspettativa perché le probabilità non si escludono a vicenda. Ad esempio, quando , . Tj×cc0T=n(n+1)/2
whuber

@whuber oh, giusto, buon punto grazie, l'ho corretto sopra.
fairidox,

Ho notato che hai cambiato il limite superiore. Ora sembra essere negativo ;-).
whuber

La " " dell'esponenziale non dovrebbe essere quadrata? - Ok, semplifica con il dominio [0,1]j
Alecos Papadopoulos il

Risposte:


1

Questo è un approccio piuttosto fatto a mano, e apprezzerei molto alcuni commenti su di esso (e quelli critici sono di solito i più utili). Se ho capito bene, l'OP calcola la media del campione , dove ogni campione contiene la precedente osservazione +1 del campione da un nuovo Indica la distribuzione di ogni media del campione. Quindi possiamo scrivere x¯jFj

T=defj=1n(1Fj(c))=nj=1nFj(c)

Prendere in considerazione un campione di dimensioni dopo il quale la distribuzione della media campionaria è quasi normale, indicare che . Quindi possiamo scriveremG^

T=nj=1mFj(c)j=m+1nG^j(c)<nj=m+1nG^j(c)

Risolvendo otteniamo dove è lo standard normale cdf, è la deviazione standard del processo iid e è la sua media. Inserendo nel limite e riordinando otteniamoG^j(c)

G^j(c)=1Φ(jσ(μc))
Φσμ

T<m+j=m+1nΦ(jσ(a))

Si noti che questo limite dipende anche dalla varianza del processo. È un limite migliore di quello presentato nella domanda? Ciò dipenderà in modo cruciale da quanto "rapidamente" la distribuzione della media del campione diventa "quasi normale". Per fare un esempio numerico, supponi che . Supponiamo anche che le variabili casuali siano uniformi in . Quindi e . Considera una deviazione del 10% dalla media, ovvero imposta . quindi: già per il limite che propongo (che è significativo per ) diventa più stretto. Per il limite di Hoeffding èm=30[0,1]σ=112μ=12a=0.05n=34n>30n=10078.5mentre il limite che propongo è . Il limite di Hoeffding converge a mentre il limite che propongo a Se si aumenta discrepanza tra i due limiti si riduce ma rimane visibile: per una deviazione del 20%, , il limite di Hoeffding converge a mentre il rilegato propongo converge a (cioè la somma dei normali file PDF contribuisce molto poco al limite complessivo). Un po 'più in generale, notiamo che per converge il limite di Hoeffding36.2199.538.5aa=0.149.530.5
n

Hb1e2a21
mentre il mio legato ad
Abm

Poiché per piccoli valori di (che è piuttosto il caso di interesse) diventa un numero elevato, esiste ancora il caso in cui può sovraperformare in , anche se il campione è tale che la distribuzione della media del campione converge lentamente in la distribuzione normale.aHbAb


" (cioè non oltre la soglia presunta della dimensione del campione è necessario ottenere l'approssimazione normale nella distribuzione della media del campione) " di cosa stai parlando qui?
Glen_b -Restate Monica

Niente di importante. Mentre scrivo alcune righe sopra, una regola empirica in modo che la distribuzione della media del campione sia "molto" come normale, è che abbiamo bisogno di almeno una dimensione del campione di 30. Quindi per la dimensione del campione 100 e una deviazione del 20% caso, il mio limite è cioè - in altre parole il parte del limite contribuisce molto poco. 30.5m+0.5j=m+1nΦ(jσ(a))
Alecos Papadopoulos,

A meno che tu non possa dichiarare le circostanze in cui si trova , per favore evita di chiamare quella cosa una regola empirica in senso generale. La cifra di 30 è completamente arbitraria (di solito o troppo debole o troppo forte), e che anche 30 si presenta nel tuo caso, credo una semplice coincidenza.
Glen_b -Restate Monica

1
@Glen_b "30" non è stata nemmeno una coincidenza - l'ho usato solo per fornire un esempio numerico. Non ho obiezioni al problema, non mi piacciono le "regole empiriche" (specialmente quando sono dubbie). Ho apportato alcune modifiche alla mia risposta. Grazie per l'input.
Alecos Papadopoulos,

@Glen_b Grazie per la memoria forse non stazionaria (cioè lunga)!
Alecos Papadopoulos,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.