Distanza massima tra i campioni prelevati senza sostituzione da una distribuzione uniforme discreta


16

Questo problema è legato alla ricerca del mio laboratorio sulla copertura robotica:

Disegna casualmente numeri dall'insieme senza sostituzione e ordina i numeri in ordine crescente. .n{1,2,,m}1nm

Da questo elenco ordinato di numeri , genera la differenza tra numeri consecutivi e limiti: . Questo dà spazi vuoti.{a(1),a(2),,a(n)}g={a(1),a(2)a(1),,a(n)a(n1),m+1a(n)}n+1

Qual è la distribuzione del divario massimo?

P(max(g)=k)=P(k;m,n)=?

Questo può essere inquadrato usando le statistiche dell'ordine : P(g(n+1)=k)=P(k;m,n)=?

Vedi il link per la distribuzione delle lacune , ma questa domanda richiede la distribuzione del gap massimo .

Sarei soddisfatto del valore medio, .E[g(n+1)]

Se tutti gli spazi sono di dimensioni 1. Se c'è uno spazio di dimensione 2 e n + 1 possibili posizioni. La dimensione massima dello spazio è m-n + 1 e questo spazio può essere posizionato prima o dopo uno qualsiasi degli n numeri, per un totale di n + 1 posizioni possibili. La dimensione minima del gap massima è \ lceil \ frac {mn} {n + 1} \ rceil . Definisci la probabilità di una data combinazione T = {m \ scegli n} ^ {- 1} . n + 1 = m 2 n + 1 m - n + 1 n n + 1 m - nn=mn+1=m2n+1mn+1nn+1T= ( mmnn+1T=(mn)1

Ho parzialmente risolto la funzione della massa di probabilità come (1)P(g(n+1)=k)=P(k;m,n)={0k<mnn+11k=mnn+11k=1 (occurs when m=n)T(n+1)k=2 (occurs when m=n+1)T(n+1)k=m(n1)n?m(n1)nkmn+1T(n+1)k=mn+10k>mn+1

Lavoro corrente (1): l'equazione per il primo gap, a(1) è semplice:

P(a(1)=k)=P(k;m,n)=1(mn)k=1mn+1(mk1n1)
Il valore atteso ha un valore semplice: E[P(a(1))]=1(mn)k=1mn+1(mk1n1)k=mn1+n . Per simmetria, mi aspetto che tutti i n lacune di avere questa distribuzione. Forse la soluzione potrebbe essere trovata attingendo da questa distribuzione n volte.

Lavoro attuale (2): è facile eseguire simulazioni Monte Carlo.

simMaxGap[m_, n_] := Max[Differences[Sort[Join[RandomSample[Range[m], n], {0, m+1}]]]];
m = 1000; n = 1; trials = 100000;
SmoothHistogram[Table[simMaxGap[m, n], {trials}], Filling -> Axis,
Frame -> {True, True, False, False},
FrameLabel -> {"k (Max gap)", "Probability"},
PlotLabel -> StringForm["m=``,n=``,smooth histogram of maximum map for `` trials", m, n, trials]][![enter image description here][1]][1]

1
In queste condizioni devi avere n <= m. Penso che tu voglia g = {a_ (1), a_ (2) -a_ (1), ..., a_ (n) -a_ (n-1)}. Selezionare casualmente significa selezionare ciascun numero con probabilità 1 / m al primo pareggio? Dato che non si sostituisce la probabilità sarebbe 1 / (m-1) sul secondo e così via fino a 1 sul mth draw se n = m. Se n <m questo si fermerebbe prima con l'ultima estrazione con probabilità 1 / (m- (n-1)) sull'ennesima estrazione.
Michael R. Chernick,

2
La tua descrizione originale di non aveva senso, perché (credo) hai trasposto due dei pedici. Verifica che la mia modifica sia conforme alla tua intenzione: in particolare, conferma che intendi che ci siano lacune, di cui è il primo. gna(1)
whuber

1
@gung Penso che questa sia ricerca, piuttosto che studio personale
Glen_b -Reinstate Monica

1
Penso che le dimensioni del tuo spazio minimo e massimo dovrebbero essere e . La dimensione minima dello spazio è quando vengono scelti numeri interi consecutivi e la dimensione massima dello spazio si verifica quando si selezionano e primi numeri interi (o e )1mn+1mn11,,n11mn+2,,m
probabilityislogic

1
Grazie Michael Chernick e chanceislogic, le tue correzioni sono state apportate. Grazie @whuber per aver apportato la correzione!
Aaron Becker

Risposte:


9

Sia la possibilità che il minimo, a ( 1 ) , sia uguale a g ; vale a dire, il campione è composto da g e da un sottoinsieme n - 1 di { g + 1 , g + 2 , , m } . Ci sono ( m -f(g;n,m)a(1)ggn1{g+1,g+2,,m} tali sottoinsiemi di ( m(mgn1) sottoinsiemi altrettanto probabili, da cui(mn)

Pr(a(1)=g=f(g;n,m)=(mgn1)(mn).

Aggiungendo per tutti i possibili valori di k maggiore di g si ottiene la funzione di sopravvivenzaf(k;n,m)kg

Pr(a(1)>g)=Q(g;n,m)=(mg)(mg1n1)n(mn).

Sia la variabile casuale data dal gap più grande:Gn,m

Gn,m=max(a(1),a(2)a(1),,a(n)a(n1)).

(Questo risponde alla domanda come originariamente inquadrata, prima che fosse modificata per includere uno spazio tra e m .)a(n)m Calcoleremo la sua funzione di sopravvivenza da cui deriva prontamente l'intera distribuzione di G n , m . Il metodo è un programma dinamico che inizia con n = 1

P(g;n,m)=Pr(Gn,m>g),
Gn,mn=1 , per il quale è ovvio che

(1)P(g;1,m)=Pr(G1,m>1)=mgm, g=0,1,,m.

Per più grande , si noti che l'evento G n , m > gn>1Gn,m>g è l'unione disgiunta dell'evento

a1>g,

per cui il primo gap supera , e ggg eventi separati

a1=k and Gn1,mk>g, k=1,2,,g

per cui il primo gap è uguale a e un gap maggiore di g si verifica successivamente nel campione. La legge della probabilità totale afferma che le probabilità di questi eventi aggiungono, da cuikg

(2)P(g;n,m)=Q(g;n,m)+k=1gf(k;n,m)P(g;n1,mk).

Riparando e disponendo un array a due vie indicizzato da i = 1 , 2 , , n e j = 1 , 2 , , m , possiamo calcolare P ( g ; n , m ) usando ( 1 ) per riempire nella sua prima riga e ( 2 ) per riempire ogni riga successiva usando le operazioni O ( g m ) per riga. Di conseguenza la tabella può essere completata ingi=1,2,,nj=1,2,,mP(g;n,m)(1)(2)O(gm)O(gmn)le operazioni e tutte le tabelle da a g = m - n + 1 possono essere costruite in O ( m 3 n )g=1g=mn+1O(m3n) operations.

Figure

Questi grafici mostrano la funzione di sopravvivenza per n = 1 , 2 , 4 , 8 , 16 , 32 , 64 . All'aumentare di n , il grafico si sposta a sinistra, corrispondente alle probabilità decrescenti di ampi spazi vuoti.gP(g;n,64)n=1,2,4,8,16,32,64n

Le formule chiuse per possono essere ottenute in molti casi speciali, specialmente per n grandi , ma non sono stato in grado di ottenere una formula chiusa che si applica a tutti g , n ,P(g;n,m)n . Buone approssimazioni sono prontamente disponibili sostituendo questo problema con il problema analogo per variabili uniformi continue.g,n,m

Infine, l'aspettativa di si ottiene sommando la sua funzione di sopravvivenza a partire da g = 0Gn,mg=0 :

E(Gn,m)=g=0mn+1P(g;n,m).

Figure 2: contour plot of expectation

2,4,6,,32


Suggestion: line "Let Gn,m be the random variable given by the largest gap:", please add the last gap of m+1an. Your expectation plot matches my Monte Carlo simulation.
AaronBecker
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.