Limite inferiore per testare la vicinanza nella norma


11

Mi chiedevo se esistesse un limite inferiore (in termini di complessità del campione) noto per il seguente problema:

Dato l'accesso dell'oracolo di esempio a due distribuzioni sconosciute , su , test (whp) seD1D2{1,,n}

  • D1=D2
  • oppured2(D1,D2)=D1D22=i=1n(D1(i)D2(i))2ϵ

Batu et al. [BFR + 00] ha mostrato che i campioni O(1ϵ4) erano sufficienti, ma non ho trovato alcuna menzione di un limite inferiore?

Suppongo che uno potrebbe sempre mostrare un limite inferiore di Ω(1ϵ2) riducendo il compito di distinguere una moneta equa rispetto a ϵ a questo problema (simulando una distribuzione supportata solo su due punti e rispondendo alle domande del tester secondo i lanci di moneta iid), ma ciò lascia ancora un divario quadratico ...

(Un altro punto a cui sarei interessato è un limite inferiore nella stima (fino a un additivo ϵ ) questa distanza L2 - di nuovo, non ho trovato alcun riferimento a tale risultato in letteratura)

Grazie per l'aiuto,


Questo problema promettente sembra molto simile a quello chiamato differenza statistica da Sahai e Vadhan, che è un problema completo per la classe SZK (conoscenza statistica zero); tuttavia, usano la distanza . cs.ucla.edu/~sahai/work/web/2003%20Publications/J.ACM2003.pdf . (Modifica: anche io penso che stiano presupponendo che tu abbia un circuito che calcola le distribuzioni, non l'accesso all'oracolo.)L1
usul

Ciao, come menzionato in un altro commento, la differenza tra la norma e è effettivamente cruciale qui - inoltre, in questo documento, hanno stabilito una soglia esplicita (e non arbitraria) (in una delle osservazioni, spiegano che questa soglia deve soddisfare alcuni vincoli particolari); e vuoi distinguere rispetto a (che è in qualche modo più vicino ai test tolleranti / alla stima della distanza rispetto ai "test abituali", dove vuoi testare vs. (ma per qualsiasi fisso )). L 1 τ = 1 / 3 d 1τ d 21 - τ d 2 = 0 d 2ε εL2L1τ=1/3d1τd21τd2=0d2ϵϵ
Clemente C.,

Risposte:


6

Sembra che i campioni - come mostrato di seguito da usul - siano sufficienti per il test, quindi la complessità del campione è esattamente ; in realtà, risulta che questo numero di campioni ci è sufficiente per apprendere fino a un additivo la norma .Θ ( 1 / ϵ 2 ) D ϵ L 2O(1/ϵ2)Θ(1/ϵ2) DϵL2


Let sia la funzione di densità empirica ottenuta tracciando IID campioni e l'impostazione Quindi dove . The ms1,...,sm~D D (k)D^ms1,,smDD - D2 2

D^(k)=def1m=1m1{s=k},k[n]
Xk
DD^22=k=1n(1m=1m1{s=k}D(k))2=1m2k=1n(=1m1{s=k}mD(k))2=1m2k=1n(XkEXk)2
Xkk[n] ED - D2 2Xk=def=1m1{s=k}Bin(m,D(k))Xk(per ) non sono indipendenti, ma possiamo scrivere modo che per , e applicare la disuguaglianza di Markov k[n] m3
EDD^22=1m2k=1nE[(XkEXk)2]=1m2k=1nVarXk=1m2k=1nmD(k)(1D(k))1mk=1nD(k)=1m
ED - D 2 2ε2m3ϵ2 P{D - D2ε}1
EDD^22ϵ23
P{DD^2ϵ}13.

(Mi riferivo alla risposta di Usul che iniziava con "Cercherò di espiare il mio precedente errore mostrando qualcosa di opposto [...]" - che in realtà è al di sopra di questo. Non me lo aspettavo :)) Per quanto riguarda l'apprendimento limite superiore, si può dimostrare che l'algoritmo più ingenuo (cioè quello che disegna i campioni e genera la densità empirica che definisce) produce una distribuzione che è, con probabilità costante, -close to in distance. D ε D L 2m=O(1/ϵ2)D^ϵDL2
Clemente C.

@DW Ho appena modificato la mia risposta.
Clemente C.

3

Tenterò di espiare il mio precedente errore mostrando qualcosa di opposto - che campioni sono sufficienti (il limite inferiore di è quasi stretto)! Vedi cosa ne pensi ....1/ϵ2Θ~(1ϵ2)1/ϵ2

L'intuizione chiave parte da due osservazioni. Innanzitutto, affinché le distribuzioni abbiano una distanza di , devono essere presenti punti con alta probabilità ( ). Ad esempio, se avessimo punti di probabilità , avremmo . ϵ Ω ( ϵ 2 ) 1 / ϵ 3 ϵ 3D 1 - D 2 2L2ϵΩ(ϵ2)1/ϵ3ϵ3D1D221ϵ3(ϵ3)2=ϵ3/2<ϵ

In secondo luogo, considerare distribuzioni uniformi con una distanza di . Se avessimo punti di probabilità , ognuno differirebbe per e sarebbero sufficienti. D'altra parte, se avessimo punti , ognuno di essi dovrebbe differire per e ancora campioni (un numero costante per punto) è sufficiente. Quindi potremmo sperare che, tra i punti ad alta probabilità menzionati in precedenza, vi sia sempre qualche punto che differisce "abbastanza" da lo distingue. ϵ O ( 1 ) O ( 1 ) O ( ϵ ) 1 / ϵ 2 O ( 1 / ϵ 2 ) O ( ϵ 2 ) O ( 1 / ϵ 2 ) O ( 1 / ϵ 2 )L2ϵO(1)O(1)O(ϵ)1/ϵ2O(1/ϵ2)O(ϵ2)O(1/ϵ2)O(1/ϵ2)

Algoritmo. Dato e un parametro di confidenza , lascia . Disegna campioni da ogni distribuzione. Sia il rispettivo numero più alto e più basso di campioni per il punto . Se esiste un punto per cui e , dichiarare il distribuzioni diverse. Altrimenti, dichiarali allo stesso modo.M X = registro M ( 1 / ϵ 2 ) XϵMX=Mlog(1/ϵ2) ai,biii[n]aiXXϵ2ai,biii[n] ai-biaiX8aibiaiX4

I limiti di correttezza e confidenza ( ) dipendono dal seguente lemma che afferma che tutta la deviazione nella distanza proviene da punti la cui probabilità differisce da . L 2 Ω ( ϵ 2 )1eΩ(M)L2Ω(ϵ2)

Richiesta. Supponiamo . Let. Lascia che . Quindi δ i = | D 1 ( i ) - D 2 ( i ) | S k = { i : δ i > ϵ 2D1D22ϵδi=|D1(i)D2(i)|i S k δ 2 iϵ2(1-2Sk={i:δi>ϵ2k}

iSkδi2ϵ2(12k).

Prova . Abbiamo Leghiamo la seconda somma; desideriamo massimizzare soggetto a . Dato che la funzione è strettamente convessa e crescente, possiamo aumentare l'obiettivo prendendo qualsiasi e aumentando di mentre diminuendo di . Pertanto, l'obiettivo sarà massimizzato con il maggior numero di termini possibile ai loro valori massimi e il resto ai S k δ 2 ii S k δ i2 x x 2 δ iδ j δ i γ δ j γ 0 ϵ 2

iSkδi2 + iSkδi2ϵ2.
iSkδi2iSkδi2xx2δiδjδiγδjγ0. Il valore massimo di ogni termine è , e ci sono al massimo termini di questo valore (poiché sommano al massimo ). Quindi 2kϵ2k2kϵ22
iSkδi22kϵ2(ϵ2k)2=2ϵ2k.    

Rivendica . Lascia che . Se , esiste almeno un punto con e .pi=max{D1(i),D2(i)}D1D22ϵi[n]pi>ϵ24δiϵpi2

Prova . Innanzitutto, tutti i punti in hanno per definizione (e non può essere vuoto per dalla rivendicazione precedente).Skpiδi>ϵ2kSkk>2

In secondo luogo, poiché , abbiamo o, riordinando, quindi la disuguaglianza vale per almeno un punto in . Ora scegli . ipi2

iSkδi2ϵ2(121k)iSkpi,
iSk(δi2piϵ2(121k))0,
δi2piϵ2(121k)
Skk=4

Reclamo (falsi positivi) . Se , il nostro algoritmo li dichiara diversi con probabilità al massimo .D1=D2eΩ(M)

Schizzo . Considera due casi: e . Nel primo caso, il numero di campioni di non supererà da nessuna delle due distribuzioni: il numero medio di campioni è e un limite di coda indica che con probabilità , campioni non superano la loro media con un additivo ; se stiamo attenti a mantenere il valore nella coda, possiamo unirci su di loro indipendentemente da quanti punti ci siano (intuitivamente, il limite diminuisce esponenzialmente nel numero di punti possibili).pi<ϵ2/16piϵ2/16iX/8<X/16eΩ(X/pi)=ϵ2eΩ(M/pi)iX/16pi

Nel caso , possiamo usare un limite di Chernoff: dice che, quando prendiamo campioni e un punto viene disegnato con probabilità , la probabilità di differire dal suo medio di è al massimo . Qui, lascia che , quindi la probabilità è limitata da .piϵ2/16mppmcpmeΩ((cpm)2/pm)=eΩ(c2)c=X16eΩ(X)=ϵ2eΩ(M)

Quindi con probabilità , (per entrambe le distribuzioni) il numero di campioni di è entro della sua media . Pertanto, il nostro test non rileverà questi punti (sono molto vicini tra loro), e possiamo unire i vincoli su tutti i di essi. 1ϵ2eΩ(M)ipiXϵ2X16piXϵ216/ϵ2

Reclamo (falsi negativi) . Se , il nostro algoritmo li dichiara identici alla probabilità al massimo .D1D22ϵϵ2eΩ(M)

Schizzo . C'è qualche punto con e . Lo stesso limite di Chernoff come nella rivendicazione precedente afferma che con probabilità , il numero di campioni di differisce dalla sua media al massimo . Questo è per la distribuzione (WLOG) che ha ; ma esiste una probabilità ancora inferiore del numero di campioni di dalla distribuzioneipi>ϵ2/4δiϵpi/21ϵ2eΩ(M)ipimpimX161pi=D1(i)=D2(i)+δii2 differendo dalla sua media per questa quantità di additivo (poiché la media e la varianza sono inferiori).

Quindi con alta probabilità il numero di campioni di da ciascuna distribuzione è entro della sua media; ma le loro probabilità differiscono di , quindi i loro mezzi differiscono di ipiXϵ2X16δi

Xϵ2δiXpi2ϵ=piXϵ2X2.

Quindi, con alta probabilità, per il punto , il numero di campioni differisce di almeno . i#samples(1)X4

Per completare gli schizzi, dovremmo dimostrare più rigorosamente che, per abbastanza grande, il numero di campioni di è abbastanza vicino alla sua media che, quando l'algoritmo usa anziché , non cambia nulla (il che dovrebbe essere semplice lasciando un po 'di spazio nelle costanti).Mi#samplesmean


Ciao, grazie per questo - ho alcune domande sull'algoritmo e sull'analisi (per quanto riguarda un paio di punti che non sono sicuro di ottenere): supponendo che alla fine voglio solo una probabilità costante di di successo, ciò significa che costante, se capisco correttamente (a meno che non abbia capito cosa fosse )? Quindi, in questo caso, passando a : secondo l'algoritmo, diventa - è corretto? 2/3MMXΘ(log1ϵ)
Clemente C.,

@ClementC. Scusa non sono stato molto chiaro! L'affermazione è che se disegniamo campioni , allora la probabilità di sbagliare è , quindi per una costante probabilità di sbagliare, i suoi campioni . 1ϵ2Mlog(1/ϵ2)O(eM)O(1ϵ2log(1/ϵ2))
usul

OK, è quello che ho raccolto. Esaminerò la prova con questo in mente - grazie ancora per il tempo che ci hai dedicato!
Clemente C.,

1

Potresti iniziare provando a risolverlo per il caso . Sono abbastanza sicuro che i campioni di saranno necessari e sufficienti, in quel caso.n=2Θ(1/ϵ2)

È possibile che ti sia utile esaminare la conversione tra la distanza e la distanza (distanza di variazione totale).L2L1

  • È noto che, con un campione, se le distribuzioni sono note, la distanza di variazione totale caratterizza perfettamente il vantaggio con cui si può distinguere da . Pertanto, se la distanza di variazione totale è grande e le distribuzioni sono note, si può costruire un test che è corretto con alta probabilità; se la distanza di variazione totale è piccola, non si può. Non so cosa si possa dire del caso in cui la distanza di variazione totale è grande ma le distribuzioni sono sconosciute.D1D2

  • Successivamente è possibile esaminare le distribuzioni del prodotto, e . Usando la distanza di variazione totale (distanza ), non sembrano esserci buoni limiti correlati da a . Tuttavia, quando si utilizza la distanza , credo che ci siano buone stime di in funzione di . (Sfortunatamente, non riesco a trovare un riferimento specifico a tali stime / limiti, quindi spero di non ricordare male.) Esistono anche limiti noti che consentono di stimare la distanza in funzione della distanza . D n 2 L 1 | | D n 1 - D n 2 | | 1 | | D 1 - D 2 | | 1 L 2 | | D nD1nD2nL1||D1nD2n||1||D1D2||1L2||D1nD2n||2||D1D2||2L1L2

  • Pertanto, un approccio che potresti provare sarebbe quello di , quindi da quello ottenere un limite su .| | D n 1 - D n 2 | | 1||D1nD2n||2||D1nD2n||1

Non so se questo porterà ovunque bene o no; è solo un'idea. Probabilmente gli autori dell'articolo che hai citato avranno già provato o considerato qualcosa del genere.

Riferimenti forse utili:


Ciao, grazie per la tua risposta! Tuttavia, sono interessato a un limite inferiore asintotico, quando . In particolare, la relazione tra le norme e comporta un fattore - il che significa che sono effettivamente equivalenti per costante, ma asintoticamente molto diverse; l'uso di dstance come proxy non è un'opzione, per quanto ne so (per quanto riguarda la verifica della vicinanza a distanza, la complessità esatta è nota per essere [BFR + 10 , Val11 ]nL2L1nnL1L1Θ(n2/3/poly(ϵ))
Clemente C.

0

EDIT: questo non è corretto! Vedi la discussione nei commenti - Sottolineerò il difetto di seguito.

Penso che possiamo dire che sono richiesti .1ϵ4

Impostare . Lascia che sia la distribuzione uniforme (probabilità di ogni punto ) e che differisca dall'uniforme per un importo additivo in ciascun punto. Verifica che la distanza sia .n=Θ(1ϵ2)D1=Θ(ϵ2)D2±Θ(ϵ2)L2ϵ

Quindi dobbiamo distinguere un -sided moneta non truccata da un -sided coin -biased. Penso che questo dovrebbe essere almeno difficile come dire una moneta equa a facce da una moneta a facce di , che richiederebbe campioni. Modifica: questo non è corretto! La moneta è soggettivamente basata su , ma viene stimolata in modo moltiplicativo da un fattore costante. Come sottolinea DW, ciò significa che un numero costante di campioni per punto distingue da .nnΘ(ϵ2)22Θ(ϵ2)Θ(1(ϵ2)2)=Θ(1ϵ4)ϵ2D1D2


Si noti che è quanto possiamo spingere questo argomento. Concretamente, supponiamo di aver cercato di aumentare , diciamo, . Nella distribuzione uniforme, ogni punto ha probabilità . Ma in , avremmo bisogno che ogni punto differisca dall'uniforme di . Ciò non è possibile dal momento che .1ϵ4n1ϵ3ϵ3D2ϵ2.5ϵ2.5ϵ3

Più astrattamente, supponiamo di voler variare ogni punto dall'uniforme di . Quindi il massimo che possiamo impostare su sarebbe . Per ottenere una distanza di , dobbiamo accertarci che la radice quadrata della somma delle distanze sia , quindi , quindi quindi , e otteniamo .ϵkn1ϵkL2ϵϵn(ϵk)2=ϵϵk/2=ϵk=2n=1ϵ2

Inoltre, penso che lo stesso argomento affermi che, se siamo interessati alla distanza con , abbiamo bisogno di , quindi sceglieremo , quindi il numero di campioni sarebbe . Penso che questo abbia senso come un limite che è indipendente da . Si avvicina all'infinito come . Se stessi cercando di distinguere due distribuzioni alla distanza di senza limite di , renderei illimitato e divideremo la differenza arbitrariamente sottile, in modo da non poterle mai distinguere (Lpp>1k=pp1n=1/ϵpp11/ϵ2pp1np1L1ϵnncioè nessun numero fisso di campioni è sufficiente per tutte le ). Si avvicina anche a come ; questo ha senso come un limite perché, per la norma , possiamo impostare e lasciare che ogni punto differisca di ; dobbiamo campionare alcune volte point per essere sicuri che differisca dall'uniforme, che prenderà campioni .n1ϵ3pLn=1ϵΘ(ϵ)1ϵ21ϵ3


1. Intendi davvero che differisce dall'uniforme di in ogni punto? Ho il sospetto che sia un refuso e intendevi . D2±1/ϵ2±ϵ2
DW

1
2. Non compro che distinguere da richiede campioni. Mi sembra che i campioni di siano sufficienti. Spiegazione (intuizione): supponiamo di raccogliere campioni e contare quante volte si verifica ogni valore possibile. Se provenivano da , ognuno dovrebbe accadere 100 volte (con dev dev 10). Se provenivano da , ognuno dovrebbe verificarsi 200 volte (dev dev standard 14) per metà di essi, / 0 volte (dev dev standard 0) per l'altra metà. È abbastanza facile distinguere tra i due, se sai che hai a che fare con o . D 2 1 / ϵ 4 Θ ( 1 / ϵ 2 ) m = 100 / ϵ 2D1D21/ϵ4Θ(1/ϵ2)m=100/ϵ2D1D2D1D2
DW

@DW (1) hai ragione! Fisso. (2) Come dici tu, sono d'accordo, ma penso che con diverse scelte di costanti sia più difficile. Sto immaginando qualcosa del genere: , quindi mette probabilità su ogni punto. Quindi differisce di su ogni punto (controlla che la distanza sia ), quindi mette la probabilità o su ogni punto. D 1 100 ε 2 D 2 10 ε 2 Ln=1/100ϵ2D1100ϵ2D210ϵ2L2ϵ90ϵ2110ϵ2
usul

1
Penso che i campioni ancora sufficienti. Raccogli campioni e conta quante volte si verifica ogni valore possibile. Per , ciascuno dovrebbe verificarsi 1.000.000 di volte (dev dev standard ). Per , ciascuno dovrebbe avvenire 900.000 volte (dev dev standard ) o 1.100.000 volte (dev dev standard ). È abbastanza facile distinguere tra i due, se sappiamo che abbiamo a che fare con o , perché la differenza tra 1.000.000 e 1.100.000 è 100 deviazioni standard, cioè enormi. m = 10 6 n D 1 1000 D 21000 1000 D 1 D 2O(1/ϵ2)m=106nD11000D210001000D1D2
DW

@DW Ci ho pensato di più: hai ragione. Se i loro mezzi differiscono per un fattore moltiplicativo costante, allora un numero costante di campioni per punto dovrebbe distinguerli. È il fattore moltiplicativo non additivo che conta. Questo approccio fornisce quindi solo un limite inferiore di . 1/ϵ2
usul
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.