Misurare la "distanza" tra due distribuzioni multivariate

28

Sto cercando una buona terminologia per descrivere ciò che sto cercando di fare, per rendere più semplice la ricerca di risorse.

Quindi, supponiamo di avere due gruppi di punti A e B, ciascuno associato a due valori, X e Y, e voglio misurare la "distanza" tra A e B, ovvero quanto è probabile che siano stati campionati dalla stessa distribuzione (Posso presumere che le distribuzioni siano normali). Ad esempio, se X e Y sono correlati in A ma non in B, le distribuzioni sono diverse.

Intuitivamente, avrei ottenuto la matrice di covarianza di A, e poi avrei esaminato la probabilità che ogni punto in B si adattasse lì, e viceversa (probabilmente usando qualcosa come la distanza di Mahalanobis).

Ma questo è un po '"ad-hoc", e probabilmente c'è un modo più rigoroso di descriverlo (ovviamente, in pratica ho più di due set di dati con più di due variabili - Sto cercando di identificare quale dei miei set di dati sono anomali).

Grazie!

multivariate-analysis terminology distance-functions

— Emile
fonte

Non so perché, ma un test di Mantel mi è balenato davanti agli occhi quando ho letto il tuo post.

— Roman Luštrik,

15

C'è anche la divergenza di Kullback-Leibler , che è correlata alla distanza di Hellinger menzionata sopra.

— Ripristina Monica - G. Simpson
fonte

2

si può calcolare la divergenza di punti di Kullback-Leibler senza fare ipotesi sulla densità di probabilità sottostante da cui provengono i punti?

— Andre Holzner,

16

Hmm, la distanza di Bhattacharyya sembra essere quello che sto cercando, anche se funziona anche la distanza di Hellinger .

— Emile
fonte

menzioni Bhattacharyya e Helling, poi accetti una risposta parlando di KL ... Alla fine qual è stata la tua scelta e perché?

— Simon C.

1

Credo che sia stata la divergenza di KL, ma ... era il 2010 e la mia memoria è tutt'altro che perfetta.

— Emile,

ahah si l'ho indovinato, ma grazie lo stesso!

— Simon C.

9

Euristico

Minkowski-form
Varianza media ponderata (WMV)

Statistiche dei test non parametrici

2 (Chi Square)
Kolmogorov-Smirnov (KS)
Cramer / von Mises (CvM)

Divergenze della teoria dell'informazione

Kullback-Liebler (KL)
Divergenza di Jensen – Shannon (sistema metrico)
Jeffrey-divergence (numericamente stabile e simmetrico)

Misure della distanza dal suolo

Intersezione dell'istogramma
Forma quadratica (QF)
Earth Movers Distance (EMD)

— SkyDe
fonte

7

Il sondaggio più completo è fornito nell'Inferenza statistica basata sulle misure di divergenza di Leandro Pardo, Università Complutense, Chapman Hall 2006.

— Mark Salmon
fonte

0

Poche altre misure di "Differenza statistica"

Test di permutazione (di Fisher)
Teorema del limite centrale e teorema di Slutsky
Test di Mann-Whitney-Wilcoxin
Test Anderson-Tesoro
Test di Shapiro-Wilk
Test di Hosmer – Lemeshow
Test di Kuiper
discrepanza di Stein nel kernel
Somiglianza di Jaccard
Inoltre, il clustering gerarchico si occupa di misure di somiglianza tra i gruppi. Le misure più popolari di somiglianza di gruppo sono forse il collegamento singolo, il collegamento completo e il collegamento medio.

— Danylo Zherebetskyy
fonte