Tenterò di espiare il mio precedente errore mostrando qualcosa di opposto - che campioni sono sufficienti (il limite inferiore di è quasi stretto)! Vedi cosa ne pensi ....1/ϵ2Θ~(1ϵ2)1/ϵ2
L'intuizione chiave parte da due osservazioni. Innanzitutto, affinché le distribuzioni abbiano una distanza di , devono essere presenti punti con alta probabilità ( ). Ad esempio, se avessimo punti di probabilità , avremmo . ϵ Ω ( ϵ 2 ) 1 / ϵ 3 ϵ 3 ‖ D 1 - D 2 ‖ 2 ≤ √L2ϵΩ(ϵ2)1/ϵ3ϵ3∥D1−D2∥2≤1ϵ3(ϵ3)2−−−−−−√=ϵ3/2<ϵ
In secondo luogo, considerare distribuzioni uniformi con una distanza di . Se avessimo punti di probabilità , ognuno differirebbe per e sarebbero sufficienti. D'altra parte, se avessimo punti , ognuno di essi dovrebbe differire per e ancora campioni (un numero costante per punto) è sufficiente. Quindi potremmo sperare che, tra i punti ad alta probabilità menzionati in precedenza, vi sia sempre qualche punto che differisce "abbastanza" da lo distingue. ϵ O ( 1 ) O ( 1 ) O ( ϵ ) 1 / ϵ 2 O ( 1 / ϵ 2 ) O ( ϵ 2 ) O ( 1 / ϵ 2 ) O ( 1 / ϵ 2 )L2ϵO(1)O(1)O(ϵ)1/ϵ2O(1/ϵ2)O(ϵ2)O(1/ϵ2)O(1/ϵ2)
Algoritmo. Dato e un parametro di confidenza , lascia . Disegna campioni da ogni distribuzione. Sia il rispettivo numero più alto e più basso di campioni per il punto . Se esiste un punto per cui e , dichiarare il distribuzioni diverse. Altrimenti, dichiarali allo stesso modo.M X = registro M ( 1 / ϵ 2 ) XϵMX=Mlog(1/ϵ2) ai,biii∈[n]ai≥XXϵ2ai,biii∈[n] ai-bi≥√ai≥X8ai−bi≥ai−−√X√4
I limiti di correttezza e confidenza ( ) dipendono dal seguente lemma che afferma che tutta la deviazione nella distanza proviene da punti la cui probabilità differisce da . L 2 Ω ( ϵ 2 )1−e−Ω(M)L2Ω(ϵ2)
Richiesta. Supponiamo . Let. Lascia che . Quindi
δ i = | D 1 ( i ) - D 2 ( i ) | S k = { i : δ i > ϵ 2∥D1−D2∥2≥ϵδi=|D1(i)−D2(i)|∑i∈ S k δ 2 i ≥ϵ2(1-2Sk={i:δi>ϵ2k}
∑i∈Skδ2i≥ϵ2(1−2k).
Prova . Abbiamo
Leghiamo la seconda somma; desideriamo massimizzare soggetto a . Dato che la funzione è strettamente convessa e crescente, possiamo aumentare l'obiettivo prendendo qualsiasi e aumentando di mentre diminuendo di . Pertanto, l'obiettivo sarà massimizzato con il maggior numero di termini possibile ai loro valori massimi e il resto a∑ i ∉ S k δ 2 i ∑ i ∉ S k δ i ≤ 2 x ↦ x 2 δ i ≥ δ j δ i γ δ j γ 0 ϵ 2
∑i∈Skδ2i + ∑i∉Skδ2i≥ϵ2.
∑i∉Skδ2i∑i∉Skδi≤2x↦x2δi≥δjδiγδjγ0. Il valore massimo di ogni termine è , e ci sono al massimo termini di questo valore (poiché sommano al massimo ). Quindi
2kϵ2k2kϵ22∑i∉Skδ2i≤2kϵ2(ϵ2k)2=2ϵ2k. □
Rivendica . Lascia che . Se , esiste almeno un punto con e .pi=max{D1(i),D2(i)}∥D1−D2∥2≥ϵi∈[n]pi>ϵ24δi≥ϵpi√2
Prova . Innanzitutto, tutti i punti in hanno per definizione (e non può essere vuoto per dalla rivendicazione precedente).Skpi≥δi>ϵ2kSkk>2
In secondo luogo, poiché , abbiamo
o, riordinando,
quindi la disuguaglianza
vale per almeno un punto in . Ora scegli . ∑ipi≤2
∑i∈Skδ2i≥ϵ2(12−1k)∑i∈Skpi,
∑i∈Sk(δ2i−piϵ2(12−1k))≥0,
δ2i≥piϵ2(12−1k)
Skk=4□
Reclamo (falsi positivi) . Se , il nostro algoritmo li dichiara diversi con probabilità al massimo .D1=D2e−Ω(M)
Schizzo . Considera due casi: e . Nel primo caso, il numero di campioni di non supererà da nessuna delle due distribuzioni: il numero medio di campioni è e un limite di coda indica che con probabilità , campioni non superano la loro media con un additivo ; se stiamo attenti a mantenere il valore nella coda, possiamo unirci su di loro indipendentemente da quanti punti ci siano (intuitivamente, il limite diminuisce esponenzialmente nel numero di punti possibili).pi<ϵ2/16pi≥ϵ2/16iX/8<X/16e−Ω(X/pi)=ϵ2e−Ω(M/pi)iX/16pi
Nel caso , possiamo usare un limite di Chernoff: dice che, quando prendiamo campioni e un punto viene disegnato con probabilità , la probabilità di differire dal suo medio di è al massimo . Qui, lascia che , quindi la probabilità è limitata da .pi≥ϵ2/16mppmcpm−−−√e−Ω((cpm√)2/pm)=e−Ω(c2)c=X√16e−Ω(X)=ϵ2e−Ω(M)
Quindi con probabilità , (per entrambe le distribuzioni) il numero di campioni di è entro della sua media . Pertanto, il nostro test non rileverà questi punti (sono molto vicini tra loro), e possiamo unire i vincoli su tutti i di essi. 1−ϵ2e−Ω(M)ipiXϵ2−−−−√X√16piXϵ216/ϵ2□
Reclamo (falsi negativi) . Se , il nostro algoritmo li dichiara identici alla probabilità al massimo .∥D1−D2∥2≥ϵϵ2e−Ω(M)
Schizzo . C'è qualche punto con e . Lo stesso limite di Chernoff come nella rivendicazione precedente afferma che con probabilità , il numero di campioni di differisce dalla sua media al massimo . Questo è per la distribuzione (WLOG) che ha ; ma esiste una probabilità ancora inferiore del numero di campioni di dalla distribuzioneipi>ϵ2/4δi≥ϵpi−−√/21−ϵ2e−Ω(M)ipimpim−−−√X√161pi=D1(i)=D2(i)+δii2 differendo dalla sua media per questa quantità di additivo (poiché la media e la varianza sono inferiori).
Quindi con alta probabilità il numero di campioni di da ciascuna distribuzione è entro della sua media; ma le loro probabilità differiscono di , quindi i loro mezzi differiscono di
ipiXϵ2−−−√X√16δi
Xϵ2δi≥Xpi−−√2ϵ=piXϵ2−−−−√X−−√2.
Quindi, con alta probabilità, per il punto , il numero di campioni differisce di almeno . i#samples(1)−−−−−−−−−−−√X√4□
Per completare gli schizzi, dovremmo dimostrare più rigorosamente che, per abbastanza grande, il numero di campioni di è abbastanza vicino alla sua media che, quando l'algoritmo usa anziché , non cambia nulla (il che dovrebbe essere semplice lasciando un po 'di spazio nelle costanti).Mi#samples−−−−−−−−√mean−−−−−√