Sto cercando una buona terminologia per descrivere ciò che sto cercando di fare, per rendere più semplice la ricerca di risorse.
Quindi, supponiamo di avere due gruppi di punti A e B, ciascuno associato a due valori, X e Y, e voglio misurare la "distanza" tra A e B, ovvero quanto è probabile che siano stati campionati dalla stessa distribuzione (Posso presumere che le distribuzioni siano normali). Ad esempio, se X e Y sono correlati in A ma non in B, le distribuzioni sono diverse.
Intuitivamente, avrei ottenuto la matrice di covarianza di A, e poi avrei esaminato la probabilità che ogni punto in B si adattasse lì, e viceversa (probabilmente usando qualcosa come la distanza di Mahalanobis).
Ma questo è un po '"ad-hoc", e probabilmente c'è un modo più rigoroso di descriverlo (ovviamente, in pratica ho più di due set di dati con più di due variabili - Sto cercando di identificare quale dei miei set di dati sono anomali).
Grazie!