Discrepanza media massima (distribuzione della distanza)


15

Ho due set di dati (dati di origine e di destinazione) che seguono la diversa distribuzione. Sto usando MMD, ovvero una distribuzione di distanza non parametrica, per calcolare la distribuzione marginale tra i dati di origine e quelli di destinazione.

dati di origine, Xs

dati target, Xt

adattamento Matrix A

* Dati proiettati, Zs = A '* Xs e Zt = A' Xt

* MMD => Distanza (P (Xs), P (Xt)) = | media (A'Xs) - media (A ' Xt) |

Ciò significa: la distanza di distribuzione tra i dati di origine e di destinazione nello spazio originale è equivalente alla distanza tra i mezzi di origine proiettata e i dati di destinazione nello spazio incorporato.

Ho una domanda sul concetto di MMD.

Nella formula MMD, Perché con la distanza di calcolo nello spazio latente, potremmo misurare la distanza di distribuzione nello spazio originale?

Grazie


Non hai ancora fatto una domanda: ci hai solo detto che ti confondi!
whuber

Risposte:


44

Potrebbe aiutare a dare un po 'più di una panoramica di MMD.

In generale, MMD è definito dall'idea di rappresentare le distanze tra le distribuzioni come distanze tra gli incorporamenti medi delle caratteristiche. Vale a dire, dire che abbiamo distribuzioni e su un insieme . La MMD è definita da una mappa caratteristica , dove è quello che viene chiamato spazio Hilbert del kernel riproducente. In generale, il MMD è PQX φ:XHH

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H.

Ad esempio, potremmo avere e . In tal caso: quindi questo MMD è solo la distanza tra i mezzi delle due distribuzioni. Le distribuzioni corrispondenti come questa corrisponderanno ai loro mezzi, sebbene possano differire nella loro varianza o in altri modi.X=H=Rdφ(x)=x

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H=EXP[X]EYQ[Y]Rd=μPμQRd,

Il tuo caso è leggermente diverso: abbiamo e , con , dove è una matrice . Quindi abbiamo Questo MMD è la differenza tra due diverse proiezioni della media. Se o la mappatura altrimenti non è invertibile,X=RdH=Rpφ(x)=AxAd×p

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H=EXP[AX]EYQ[AY]Rp=AEXP[X]AEYQ[Y]Rp=A(μPμQ)Rp.
p<dA rispetto alla precedente: non distingue tra alcune distribuzioni della precedente.

Puoi anche costruire distanze più forti. Ad esempio, se e si utilizza , la MMD diventa e può distinguere non solo le distribuzioni con mezzi diversi ma anche con varianze diverse.X=Rφ(x)=(x,x2)(EXEY)2+(EX2EY2)2

E puoi diventare molto più forte di così: se associa a uno spazio del kernel riproducente generale, allora puoi applicare il trucco del kernel per calcolare l'MMD, e si scopre che molti kernel, incluso il kernel gaussiano, portano all'MMD essendo zero se e solo le distribuzioni sono identiche.φ

In particolare, lasciando , ottieni che puoi facilmente stimare con campioni.k(x,y)=φ(x),φ(y)H

MMD2(P,Q)=EXPφ(X)EYQφ(Y)H2=EXPφ(X),EXPφ(X)H+EYQφ(Y),EYQφ(Y)H2EXPφ(X),EYQφ(Y)H=EX,XPk(X,X)+EY,YQk(Y,Y)2EXP,YQk(X,Y)


Aggiornamento: ecco da dove viene il "massimo" nel nome.

La feature map mappa in uno spazio Hilbert del kernel riproducente. Questi sono spazi di funzioni e soddisfano una proprietà chiave (chiamata proprietà riproducente ): per qualsiasi .φ:XHf,φ(x)H=f(x)fH

Nell'esempio più semplice, con , vediamo ogni come la funzione corrispondente ad alcuni , da . Quindi la proprietà riproduttiva dovrebbe avere un senso.X=H=Rdφ(x)=xfHwRdf(x)=wxf,φ(x)H=w,xRd

In impostazioni più complesse, come un kernel gaussiano, è una funzione molto più complicata, ma la proprietà di riproduzione è ancora valida.f

Ora, possiamo fornire una caratterizzazione alternativa della MMD: La seconda riga è un fatto generale sulle norme negli spazi di Hilbert:

MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]H=supfH:fH1f,EXP[φ(X)]EYQ[φ(Y)]H=supfH:fH1f,EXP[φ(X)]Hf,EYQ[φ(Y)]H=supfH:fH1EXP[f,φ(X)H]EYQ[f,φ(Y)H]=supfH:fH1EXP[f(X)]EYQ[f(Y)].
supf:f1f,gH=g è ottenuto da . Il quarto dipende da una condizione tecnica nota come integrabilità di Bochner ma è vera, ad esempio, per kernel o distribuzioni limitati con supporto limitato. Quindi alla fine usiamo la proprietà riproduttiva.f=g/g

Quest'ultima riga è il motivo per cui è chiamata la "discrepanza media massima" - è la massima funzione di over test nella sfera unitaria di , della differenza media tra le due distribuzioni.fH


Grazie per la tua spiegazione, diventa più chiaro per me; Non ho ancora capito questo concetto. All'inizio, hai detto: "La MMD è definita dall'idea di rappresentare le distanze tra le distribuzioni come distanze tra incorporamenti medi di funzionalità". Perché questa idea diventa realtà?
Mahsa,

"La MMD è definita dall'idea di rappresentare le distanze tra le distribuzioni come distanze tra incorporamenti medi di funzionalità." Perché questa idea diventa realtà? È collegata allo spazio RKHS?
Mahsa,

1
È solo una definizione: puoi confrontare le distribuzioni confrontando i loro mezzi. Oppure, puoi confrontare le distribuzioni confrontando alcune trasformazioni dei loro mezzi; o confrontando i loro mezzi e varianze; o confrontando la media di qualsiasi altra mappa caratteristica, inclusa una in un RKHS.
Dougal,

Grazie per la risposta; Leggerò di più sulla mappa delle caratteristiche di RKHS; Mi chiedevo, perché la MMD definisce la distanza nella mappa delle caratteristiche RKHS? Voglio dire, qual è il vantaggio di RKHS nella definizione della distanza MMD?
Mahsa,

La spiegazione qui è focalizzata sulla "discrepanza media" in contrapposizione alla "discrepanza media massima". Qualcuno potrebbe approfondire la parte "Massimizzazione"?
Jiang Xiang,

5

Ecco come ho interpretato MMD. Due distribuzioni sono simili se i loro momenti sono simili. Applicando un kernel, posso trasformare la variabile in modo tale che tutti i momenti (primo, secondo, terzo ecc.) Vengano calcolati. Nello spazio latente posso calcolare la differenza tra i momenti e mediarlo. Ciò fornisce una misura della somiglianza / dissomiglianza tra i set di dati.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.