Supponiamo che ti vengano dati due set di dati multivariati, uno vecchio e uno nuovo e che si suppone siano stati generati dallo stesso processo (per il quale non hai un modello) ma forse, da qualche parte lungo la linea di raccolta / creazione i dati, qualcosa è andato storto. Non vorrai usare i nuovi dati come, per esempio, un set di validazione per i vecchi dati o aggiungerli ai vecchi.
Puoi fare un sacco di statistiche 1-d (per variabile), ad esempio la somma dei ranghi di Wilcoxon, e provare qualche correzione di test multipli ma non sono sicuro che sia ottimale (per catturare la complessità dei dati multivariati e tanto meno i problemi multi-test). Un modo è utilizzare un classificatore e vedere se è possibile discriminare tra i due set di dati (dato un classificatore ottimale che è ottimale). Questo sembra funzionare ma comunque a) perhpas c'è un modo migliore b) Non è davvero progettato per dirti perché è diverso (se non altro userà i migliori predittori e forse mancherà altri buoni predittori che sono stati sommersi da quelli migliori)