Analisi di palle e cassonetti nel regime


23

mnmnXiiXmaxXminXsecmaxXiXjN(0,2m/n)|XiXj|=Θ(m/n) i,jXmaxXmin=O(mlogn/n)n/2 coppie di bidoni disgiunti. Questo argomento (non del tutto formale) ci porta ad aspettarci che il divario tra e sia con alta probabilità.XmaxXminΘ(mlogn/n)

Sono interessato al divario tra e . L'argomento sopra indicato mostra che con alta probabilità, ma il fattore sembra estraneo . Si sa qualcosa sulla distribuzione di ?XmaxXsecmaxXmaxXsecmax=O(mlogn/n)lognXmaxXsecmax

Più in generale, supponiamo che ogni palla sia associata a un punteggio non negativo per ogni cestino, e siamo interessati al punteggio totale di ogni cestino dopo aver lanciato palle. Lo scenario abituale corrisponde ai punteggi del modulo . Supponiamo che la distribuzione di probabilità dei punteggi sia invariante in base alla permutazione dei bin (nel solito scenario, ciò corrisponde al fatto che tutti i bin sono equiprobabili). Data la distribuzione dei punteggi, possiamo usare il metodo del primo paragrafo per ottenere un buon limite su . Il limite conterrà un fattore di( 0 , , 0 , 1 , 0 , , 0 ) X max - X min m(0,,0,1,0,,0)XmaxXminlognche viene da un vincolo di unione (tramite le probabilità di coda di una variabile normale). Questo fattore può essere ridotto se siamo interessati a delimitare ?XmaxXsecmax


Ogni punteggio è in [0,1]?
Neal Young,

Non importa, puoi sempre ridimensionarlo in modo che sia in . [0,1]
Yuval Filmus,

Risposte:


21

Risposta: .Θ(mnlogn)

Applicando una versione multidimensionale del teorema del limite centrale, otteniamo che il vettore ha una distribuzione gaussiana asintoticamente multivariata con e Supponiamo di seguito che sia un vettore gaussiano (e non solo approssimativamente un vettore gaussiano). Aggiungiamo una variabile casuale gaussiana con varianza a tutti ( è indipendente da tutti ). Cioè, lascia V a r [ X i ] = m ( 1(X1,,Xn)Cov(Xi,Xj)=-m/n2. XZm/n2XiZXi( Y 1 Y 2 Y n )=( X 1 +Z X 2 +Z X n +Z). (Y1

Var[Xi]=m(1n1n2),
Cov(Xi,Xj)=m/n2.
X Zm/n2XiZXi
(Y1Y2Yn)=(X1+ZX2+ZXn+Z).
Otteniamo un vettore gaussiano . Ora ogni ha varianza : e tutti sono indipendenti: Y i m / n V a r [ Y i ] = V a r [ X i ] + 2 C o v ( X i , Z ) =(Y1,,Yn)Yim/nYiCov(Yi,Yj)=Cov(Xi,Xj)+ C o v ( X i , Z ) + C o v ( X j , Z ) =
Var[Yi]=Var[Xi]+2Cov(Xi,Z)=0+Var[Z]=m/n,
Yi
Cov(Yi,Yj)=Cov(Xi,Xj)+Cov(Xi,Z)+Cov(Xj,Z)=0+Cov(Z,Z)=0.

Nota che . Quindi il nostro problema originale equivale al problema di trovare . Per prima cosa analizziamo per semplicità il caso quando tutti hanno varianza .YiYj=XiXjYmaxYsecmaxYi1

Problema. Ci viene dato gaussiano indipendente rv con mean e varianza . Stimare le aspettative di .nγ1,,γnμ1γmaxγsecmax

Risposta: .Θ(1logn)

Prova informale. Ecco una soluzione informale a questo problema (non è difficile renderlo formale). Poiché la risposta non dipende dalla media, assumiamo che . Sia , dove . Abbiamo (per moderatamente grande ), μ=0Φ¯(t)=Pr[γ>t]γN(0,1)t

Φ¯(t)12πte12t2.

Nota che

  • Φ(γi) sono distribuiti in modo uniforme e indipendente su ,[0,1]

  • Φ(γmax) è il più piccolo tra ,Φ(γi)

  • Φ(γsecmax) è il secondo più piccolo tra .Φ(γi)

Quindi è vicino a e è vicino a (non c'è concentrazione ma se non t importa delle costanti queste stime sono abbastanza buone; in effetti, sono anche abbastanza buone se ci preoccupiamo delle costanti - ma questo ha bisogno di una giustificazione). Usando la formula per , otteniamo quel Φ(γmax)1/nΦ(γmax)2/nΦ¯(t)

2Φ¯(γsecmax)/Φ¯(γmax)e12(γmax2γsecmax2).

Pertanto is whp Nota che . Abbiamo, γmax2γsecmax2Θ(1)γmaxγsecmax=Θ(logn)

γmaxγsecmaxΘ(1)γmax+γsecmaxΘ(1)logn.

QED

Otteniamo che

E[XmaxXsecmax]=E[YmaxYsecmax]=Var[Yi]×E[γmaxγsecmax]=Θ(mnlogn).

Lo stesso argomento si manifesta quando abbiamo punteggi arbitrari. Mostra che

E[XmaxXsecmax]=cE[XmaxXmin]/logn.

2
Grazie! Ricorderò di provare la prossima approssimazione gaussiana multivariata.
Yuval Filmus,

5
Yury, hai scritto "Aggiungiamo un vettore gaussiano con varianza a tutti . Otteniamo un vettore gaussiano . Ora ogni ha varianza e tutti non lo sono correlato ... Nota che . " Puoi espanderci su questa parte? È ? Se gli sono dipendenti e gli sono indipendenti (o uniformemente uguali), come possono gli essere indipendenti? (Sembra un trucco pulito ma non lo capisco.) Grazie. Zm/n2Xi(Y1,,Yn)Yim/nYiYiYj=XiXjZi=ZjXiZiYi
Neal Young

1
@NealYoung, sì, se abbiamo variabili con correlazione a coppie negativa e tutte le covarianze sono uguali , allora possiamo aggiungere una singola nuova variabile casuale a tutti gli tali che le somme sono indipendenti. Inoltre, se le variabili hanno una correlazione positiva e tutte le covarianze sono uguali, allora possiamo sottrarre una singola rv da tutte in modo che tutte le differenze siano indipendenti; ma ora non è indipendente da ma piuttostoX1,,XnCov(Xi,Xj)ZXiCov(Xi,Xj)ZZXiZ=α(X1++Xn)per alcuni parametri di ridimensionamento . α
Yury il

1
Ah capisco almeno algebricamente, tutto ciò su cui poggia è l'indipendenza a coppie di Z e di ogni . molto bello. Xi
Suresh Venkat,

1
Questo argomento ora appare (con attribuzione) in un documento EC'14 : dl.acm.org/citation.cfm?id=2602829 .
Yuval Filmus,

13

Per la tua prima domanda, penso che puoi dimostrare che whp è Si noti che questo è .XmaxXsec-max

o(mnlog2lognlogn).
o(m/n)

Confronta il tuo esperimento casuale con la seguente alternativa: Lascia che sia il carico massimo di uno dei primi bucket. Sia il carico massimo di uno degli ultimi bucket.X1n/2X2n/2

A titolo oneroso,è un limite superiore di . Inoltre, con probabilità almeno la metà, . Quindi, parlando approssimativamente, è distribuito in modo simile a.|X1X2|XmaxXsecmax|X1X2|=XmaxXsecmaxXmaxXsecmax|X1X2|

Per studiare, nota che con alta probabilità palle vengono lanciate nei primi bin, e allo stesso modo per gli ultimi bin. Quindi e sono ciascuno distribuito essenzialmente come il carico massimo quando si lanciano palline in bidoni.|X1X2|m/2±O(m)n/2n/2X1X2m=m/2±o(m)n=n/2

Questa distribuzione è ben studiata e, fortunatamente per questa argomentazione, è strettamente concentrata attorno alla sua media. Ad esempio, se , allora con alta probabilità differisce dalle sue aspettative al massimo dalla quantità visualizzata all'inizio di questa risposta [ Thm. 1 ]. (Nota: questo limite superiore è, credo, sciolto, data la risposta di Yuri.) Pertanto, con alta probabilità anche e differiscono al massimo da questo, e quindi e differiscono al massimo così tanto.mnlog3nX1X1X2XmaxXmaxsec

Al contrario, per un limite inferiore (un po 'più debole), se, per qualsiasi , diciamo, , quindi è almeno che (dal limite dell'unione ingenua) è almeno Penso che questo dovrebbe darti (per esempio) l'aspettativa di all'interno di un fattore contante.tPr[|X1X2|t]3/4Pr[XmaxXsec-maxt]

Pr[|X1X2|t  XmaxXsec-max=|X1X2|]
1(1/4)(1/2)=1/4.XmaxXsec-max

Guardando Thm. 1, la differenza dall'aspettativa è , e non quello che hai scritto. È ancora molto meglio di . O((m/n)loglogn)O((m/n)logn)
Yuval Filmus,

Di Thm. 1 (il suo terzo caso), per qualsiasi , con probabilità , il massimo in qualsiasi bin (m palle in n bin) è Secondo la mia matematica (usando ), il termine espande in un termine assoluto additivo diChe cosa sto facendo di sbagliato? ϵ>01o(1)
mn+2mlognn1(1±ϵ)loglogn2logn.
±ϵO(ϵ)1δ=1O(δ)±ϵ
O(ϵ)mlognn loglognlogn = O(ϵ)mn log2lognlogn.
Neal Young,

Ah - Immagino tu abbia ragione. Ho sottratto la radice quadrata ed è così che ho ottenuto la mia figura.
Yuval Filmus,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.