Potrebbe aiutare a dare un po 'più di una panoramica di MMD.
In generale, MMD è definito dall'idea di rappresentare le distanze tra le distribuzioni come distanze tra gli incorporamenti medi delle caratteristiche. Vale a dire, dire che abbiamo distribuzioni e su un insieme . La MMD è definita da una mappa caratteristica , dove è quello che viene chiamato spazio Hilbert del kernel riproducente. In generale, il MMD è
PQX φ:X→HHMMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H.
Ad esempio, potremmo avere e . In tal caso:
quindi questo MMD è solo la distanza tra i mezzi delle due distribuzioni. Le distribuzioni corrispondenti come questa corrisponderanno ai loro mezzi, sebbene possano differire nella loro varianza o in altri modi.X=H=Rdφ(x)=xMMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=∥EX∼P[X]−EY∼Q[Y]∥Rd=∥μP−μQ∥Rd,
Il tuo caso è leggermente diverso: abbiamo e , con , dove è una matrice . Quindi abbiamo
Questo MMD è la differenza tra due diverse proiezioni della media. Se o la mappatura altrimenti non è invertibile,X=RdH=Rpφ(x)=A′xAd×pMMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=∥EX∼P[A′X]−EY∼Q[A′Y]∥Rp=∥A′EX∼P[X]−A′EY∼Q[Y]∥Rp=∥A′(μP−μQ)∥Rp.
p<dA′ rispetto alla precedente: non distingue tra alcune distribuzioni della precedente.
Puoi anche costruire distanze più forti. Ad esempio, se e si utilizza , la MMD diventa e può distinguere non solo le distribuzioni con mezzi diversi ma anche con varianze diverse.X=Rφ(x)=(x,x2)(EX−EY)2+(EX2−EY2)2−−−−−−−−−−−−−−−−−−−−−−−−−√
E puoi diventare molto più forte di così: se associa a uno spazio del kernel riproducente generale, allora puoi applicare il trucco del kernel per calcolare l'MMD, e si scopre che molti kernel, incluso il kernel gaussiano, portano all'MMD essendo zero se e solo le distribuzioni sono identiche.φ
In particolare, lasciando , ottieni
che puoi facilmente stimare con campioni.k(x,y)=⟨φ(x),φ(y)⟩HMMD2(P,Q)=∥EX∼Pφ(X)−EY∼Qφ(Y)∥2H=⟨EX∼Pφ(X),EX′∼Pφ(X′)⟩H+⟨EY∼Qφ(Y),EY′∼Qφ(Y′)⟩H−2⟨EX∼Pφ(X),EY∼Qφ(Y)⟩H=EX,X′∼Pk(X,X′)+EY,Y′∼Qk(Y,Y′)−2EX∼P,Y∼Qk(X,Y)
Aggiornamento: ecco da dove viene il "massimo" nel nome.
La feature map mappa in uno spazio Hilbert del kernel riproducente. Questi sono spazi di funzioni e soddisfano una proprietà chiave (chiamata proprietà riproducente ): per qualsiasi .φ:X→H⟨f,φ(x)⟩H=f(x)f∈H
Nell'esempio più semplice, con , vediamo ogni come la funzione corrispondente ad alcuni , da . Quindi la proprietà riproduttiva dovrebbe avere un senso.X=H=Rdφ(x)=xf∈Hw∈Rdf(x)=w′x⟨f,φ(x)⟩H=⟨w,x⟩Rd
In impostazioni più complesse, come un kernel gaussiano, è una funzione molto più complicata, ma la proprietà di riproduzione è ancora valida.f
Ora, possiamo fornire una caratterizzazione alternativa della MMD:
La seconda riga è un fatto generale sulle norme negli spazi di Hilbert:MMD(P,Q)=∥EX∼P[φ(X)]−EY∼Q[φ(Y)]∥H=supf∈H:∥f∥H≤1⟨f,EX∼P[φ(X)]−EY∼Q[φ(Y)]⟩H=supf∈H:∥f∥H≤1⟨f,EX∼P[φ(X)]⟩H−⟨f,EY∼Q[φ(Y)]⟩H=supf∈H:∥f∥H≤1EX∼P[⟨f,φ(X)⟩H]−EY∼Q[⟨f,φ(Y)⟩H]=supf∈H:∥f∥H≤1EX∼P[f(X)]−EY∼Q[f(Y)].
supf:∥f∥≤1⟨f,g⟩H=∥g∥ è ottenuto da . Il quarto dipende da una condizione tecnica nota come integrabilità di Bochner ma è vera, ad esempio, per kernel o distribuzioni limitati con supporto limitato. Quindi alla fine usiamo la proprietà riproduttiva.f=g/∥g∥
Quest'ultima riga è il motivo per cui è chiamata la "discrepanza media massima" - è la massima funzione di over test nella sfera unitaria di , della differenza media tra le due distribuzioni.fH