Misurare la "distanza" tra due distribuzioni multivariate


28

Sto cercando una buona terminologia per descrivere ciò che sto cercando di fare, per rendere più semplice la ricerca di risorse.

Quindi, supponiamo di avere due gruppi di punti A e B, ciascuno associato a due valori, X e Y, e voglio misurare la "distanza" tra A e B, ovvero quanto è probabile che siano stati campionati dalla stessa distribuzione (Posso presumere che le distribuzioni siano normali). Ad esempio, se X e Y sono correlati in A ma non in B, le distribuzioni sono diverse.

Intuitivamente, avrei ottenuto la matrice di covarianza di A, e poi avrei esaminato la probabilità che ogni punto in B si adattasse lì, e viceversa (probabilmente usando qualcosa come la distanza di Mahalanobis).

Ma questo è un po '"ad-hoc", e probabilmente c'è un modo più rigoroso di descriverlo (ovviamente, in pratica ho più di due set di dati con più di due variabili - Sto cercando di identificare quale dei miei set di dati sono anomali).

Grazie!


Non so perché, ma un test di Mantel mi è balenato davanti agli occhi quando ho letto il tuo post.
Roman Luštrik,

Risposte:



16

Hmm, la distanza di Bhattacharyya sembra essere quello che sto cercando, anche se funziona anche la distanza di Hellinger .


menzioni Bhattacharyya e Helling, poi accetti una risposta parlando di KL ... Alla fine qual è stata la tua scelta e perché?
Simon C.

1
Credo che sia stata la divergenza di KL, ma ... era il 2010 e la mia memoria è tutt'altro che perfetta.
Emile,

ahah si l'ho indovinato, ma grazie lo stesso!
Simon C.

9

Euristico

  • Minkowski-form
  • Varianza media ponderata (WMV)

Statistiche dei test non parametrici

  • 2 (Chi Square)
  • Kolmogorov-Smirnov (KS)
  • Cramer / von Mises (CvM)

Divergenze della teoria dell'informazione

  • Kullback-Liebler (KL)
  • Divergenza di Jensen – Shannon (sistema metrico)
  • Jeffrey-divergence (numericamente stabile e simmetrico)

Misure della distanza dal suolo

  • Intersezione dell'istogramma
  • Forma quadratica (QF)
  • Earth Movers Distance (EMD)


0

Poche altre misure di "Differenza statistica"

  • Test di permutazione (di Fisher)
  • Teorema del limite centrale e teorema di Slutsky
  • Test di Mann-Whitney-Wilcoxin
  • Test Anderson-Tesoro
  • Test di Shapiro-Wilk
  • Test di Hosmer – Lemeshow
  • Test di Kuiper
  • discrepanza di Stein nel kernel
  • Somiglianza di Jaccard
  • Inoltre, il clustering gerarchico si occupa di misure di somiglianza tra i gruppi. Le misure più popolari di somiglianza di gruppo sono forse il collegamento singolo, il collegamento completo e il collegamento medio.
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.