L2 distance, come suggerito in un commento dell'utente39665. Questo è:
Nota che, come visto ad esempio nella sezione 8.1.8 del libro di cucina di matrice :
modo che questo possa essere valutato facilmente in tempo.L2(P,Q)2=∫(p(x)−q(x))2dx=∫(∑iαipi(x)−∑jβjqj(x))2dx=∑i,i′αiαi′∫pi(x)pi′(x)dx+∑j,j′βjβj′∫qj(x)qj′(x)dx−2∑i,jαiβj∫pi(x)qj(x)dx.
∫N(x;μ,Σ)N(x;μ′,Σ′)dx=N(μ;μ′,Σ+Σ′)
O(mn)
La discrepanza media massima (MMD) con un kernel Gaussiano RBF. Questa è una bella distanza, non ancora molto nota nella comunità delle statistiche, che richiede un po 'di matematica per essere definita.
Lasciando
definisci lo spazio di Hilbert come lo spazio di Hilbert del kernel riproducente corrispondente a : .k(x,y):=exp(−12σ2∥x−y∥2),
Hkk(x,y)=⟨φ(x),φ(y)⟩H
Definire il kernel della mappa media come
K(P,Q)=EX∼P,Y∼Qk(X,Y)=⟨EX∼Pφ(X),EY∼Qφ(Y)⟩.
L'MMD è quindi
MMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥=K(P,P)+K(Q,Q)−2K(P,Q)−−−−−−−−−−−−−−−−−−−−−−−−−√=supf:∥f∥H≤1EX∼Pf(X)−EY∼Qf(Y).
Per le nostre miscele e , nota che
e similmente per e .PQK(P,Q)=∑i,jαiβjK(Pi,Qj)
K(P,P)K(Q,Q)
Si scopre, usando trucchi simili a quelli di , che è
L2K(N(μ,Σ),N(μ′,Σ′))(2πσ2)d/2N(μ;μ′,Σ+Σ′+σ2I).
Come , chiaramente questo converge in un multiplo della distanza . Normalmente vorresti usare un diverso , tuttavia, uno sulla scala della variazione dei dati.σ→0L2σ
I moduli chiusi sono disponibili anche per i kernel polinomiali nella MMD; vederek
Muandet, Fukumizu, Dinuzzo e Schölkopf (2012). Imparare dalle distribuzioni tramite macchine di misura di supporto. In Advances in Neural Information Processing Systems ( versione ufficiale ). arXiv: 1202.6504 .
Per un sacco di belle proprietà di questa distanza, vedi
Sriperumbudur, Gretton, Fukumizu, Schölkopf e Lanckriet (2010). Incorporazioni e metriche dello spazio di Hilbert su misure di probabilità. Journal of Machine Learning Research, 11, 1517-1561 . arXiv: 0907.5309 .