Valutare il significato delle differenze nelle distribuzioni


22

Ho due gruppi di dati. Ciascuno con una diversa distribuzione di più variabili. Sto cercando di determinare se le distribuzioni di questi due gruppi sono diverse in modo statisticamente significativo. Ho i dati sia in forma grezza che raggruppati in modo più facile da gestire con categorie discrete con conteggi di frequenza in ciascuno.

Quali test / procedure / metodi dovrei usare per determinare se questi due gruppi sono significativamente diversi e come posso farlo in SAS o R (o Orange)?


2
Sei interessato a sapere se le distribuzioni hanno una forma diversa (es. Normale, poisson, ecc.) O se i parametri sono diversi (es. Media o sd di una distribuzione normale) o entrambi?
Jeromy Anglim,

Risposte:


15

Credo che ciò richieda un test di Kolmogorov – Smirnov a due campioni , o simili. Il test di Kolmogorov – Smirnov a due campioni si basa sul confronto delle differenze nelle funzioni di distribuzione empirica (ECDF) di due campioni, il che significa che è sensibile sia alla posizione che alla forma dei due campioni. Si generalizza anche in una forma multivariata.

Questo test si trova in varie forme in diversi pacchetti in R, quindi se sei sostanzialmente abile, tutto ciò che devi fare è installarne uno (es. FBasics ) ed eseguirlo sui tuoi dati di esempio.


5
Per R ks.test nel pacchetto "stats" predefinito è possibile eseguire il test KS senza installare pacchetti aggiuntivi.
Russellpierce,

In SAS, il test KS è disponibile in proc npar1way. In R, oltre a ks.test(), c'è il nortestpacchetto che fornisce diversi altri test di regolazione.
chl

8

Farò la domanda stupida del consulente. Perché vuoi sapere se queste distribuzioni sono diverse in modo statisticamente significativo?

I dati che stai utilizzando sono campioni rappresentativi di popolazioni o processi e vuoi valutare l'evidenza che tali popolazioni o processi differiscono? Se è così, allora un test statistico è giusto per te. Ma questa mi sembra una domanda strana.

Oppure, ti interessa sapere se hai davvero bisogno di comportarti come se quelle popolazioni o processi fossero diversi, indipendentemente dalla verità? Quindi sarà meglio determinare una funzione di perdita, idealmente una che restituisce unità significative per te, e prevedere la perdita attesa quando (a) le popolazioni sono diverse e (b) le trattano come uguali. Oppure puoi scegliere alcuni quantili della distribuzione delle perdite se vuoi adottare una posizione più o meno conservatrice.


Il tuo tono è un po 'snarky e condiscendente ... ma hai ragione, penso che quello che stavo davvero cercando era se posso ragionevolmente supporre che le due distribuzioni siano uguali.
Jay Stevens,

3
Mi dispiace che non ti piaccia il mio tono. Se vuoi sapere se puoi ragionevolmente supporre che le due distribuzioni siano le stesse, allora il KS ti indurrà in errore, perché verifica l'ipotesi nulla che le due distribuzioni siano uguali.
Andrew Robinson,

5

Potresti essere interessato ad applicare i relativi metodi di distribuzione. Chiama un gruppo il gruppo di riferimento e l'altro il gruppo di confronto. In modo simile alla costruzione di un grafico probabilità-probabilità, è possibile costruire un CDF / PDF relativo, che è un rapporto delle densità. Questa densità relativa può essere utilizzata per l'inferenza. Se le distribuzioni sono identiche, ci si aspetta una distribuzione relativa uniforme. Esistono strumenti, grafici e statistici, per esplorare ed esaminare le deviazioni dall'uniformità.

Un buon punto di partenza per avere un senso migliore è l' applicazione dei metodi relativi di distrazione in R e il pacchetto reldist in R. Per i dettagli, è necessario fare riferimento al libro Metodi di distribuzione relativa nelle scienze sociali di Handcock e Morris. C'è anche un articolo degli autori che tratta le tecniche pertinenti.


2

Una misura della differenza tra due distribuzioni è il criterio della "discrepanza media massima", che fondamentalmente misura la differenza tra le medie empiriche dei campioni dalle due distribuzioni in un kernel riproduttivo Hilbert Space (RKHS). Vedi questo documento "Un metodo del kernel per il problema dei due esempi" .


Questo metodo è molto robusto secondo me, ma non è noto perché funziona ugualmente bene se si dispone di un campione finito per la propria distribuzione (e quindi le distribuzioni del campione non sono del tutto continue). Funziona anche con distribuzioni multinomiali che per un test KS sono ancora ricerche attive per quanto ne so
www3

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.