Come testare se due distribuzioni multivariate sono campionate dalla stessa popolazione sottostante?


13

Supponiamo che ti vengano dati due set di dati multivariati, uno vecchio e uno nuovo e che si suppone siano stati generati dallo stesso processo (per il quale non hai un modello) ma forse, da qualche parte lungo la linea di raccolta / creazione i dati, qualcosa è andato storto. Non vorrai usare i nuovi dati come, per esempio, un set di validazione per i vecchi dati o aggiungerli ai vecchi.

Puoi fare un sacco di statistiche 1-d (per variabile), ad esempio la somma dei ranghi di Wilcoxon, e provare qualche correzione di test multipli ma non sono sicuro che sia ottimale (per catturare la complessità dei dati multivariati e tanto meno i problemi multi-test). Un modo è utilizzare un classificatore e vedere se è possibile discriminare tra i due set di dati (dato un classificatore ottimale che è ottimale). Questo sembra funzionare ma comunque a) perhpas c'è un modo migliore b) Non è davvero progettato per dirti perché è diverso (se non altro userà i migliori predittori e forse mancherà altri buoni predittori che sono stati sommersi da quelli migliori)

Risposte:


3
http://131.95.113.139/courses/multivariate/mantel.pdf

Discute due possibili modi per farlo se i set di dati hanno le stesse dimensioni. L'approccio di base è calcolare una metrica di distanza tra le due matrici osservate. Quindi per determinare se quella distanza è significativa, si utilizza un test di permutazione .

Se i set di dati non hanno le stesse dimensioni, è possibile utilizzare il test della corrispondenza incrociata sebbene non sembri essere molto popolare. Invece del test di abbinamento incrociato puoi provare a campionare i dati in su o in giù in modo che abbiano le stesse dimensioni, quindi usando uno degli approcci menzionati nel primo documento.


Dici che se abbiamo set di dati di dimensioni irregolari, usa il test di corrispondenza incrociata. Comunque seguendo il documento che menzioni, usano set di dati uguali e sembrano accoppiarsi in base alle distanze. Hai trovato prove di questo utilizzo? anche nelle note di rilascio del cross-match, l'esempio usa set di dati uguali
lukeg

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.