Test statistico per stabilire se due campioni vengono prelevati dalla stessa popolazione?


30

Diciamo che ho due campioni. Se voglio dire se provengono da popolazioni diverse, posso eseguire un test t. Ma diciamo che voglio testare se i campioni provengono dalla stessa popolazione. Come si fa a fare questo? Cioè, come posso calcolare la probabilità statistica che questi due campioni siano stati prelevati dalla stessa popolazione?


1
Spiega, nel modo più quantitativo possibile, cosa intendi per "stesso". Aiuterebbe a chiarire cosa intendi per "condizione".
whuber

Un test come un Kolmogorov-Smirnov a due campioni (non l'unica possibilità; con le solite ipotesi, il test t sta testando la stessa cosa, come notate) può verificare se le distribuzioni della popolazione sono diverse (ma l'incapacità di rifiutare non lo fa ' significa che in realtà sono uguali). Tuttavia, nessun test può dirti se due distribuzioni non troppo diverse appartengono effettivamente alla stessa popolazione , piuttosto che a due diverse popolazioni con distribuzioni simili. Ciò dovrebbe derivare da ipotesi o altre indagini. ... ctd
Glen_b -Restate Monica

3
ctd ... Allo stesso modo, i test non possono nemmeno dirti che le distribuzioni sono identiche, poiché possono differire in modi banali. Potresti voler cercare su "test di equivalenza" o "test di equivalenza", su cui dovresti ottenere parecchi risultati qui o su google.
Glen_b

Risposte:


20

I test che confrontano le distribuzioni sono test di esclusione. Cominciano con l'ipotesi nulla che le 2 popolazioni siano identiche, quindi cercano di respingere quell'ipotesi. Non possiamo mai dimostrare che il nulla sia vero, semplicemente rifiutarlo, quindi questi test non possono davvero essere usati per dimostrare che 2 campioni provengono dalla stessa popolazione (o popolazioni identiche).

Questo perché potrebbero esserci differenze minori nelle distribuzioni (nel senso che non sono identiche), ma così piccole che i test non riescono davvero a trovare la differenza.

Considera 2 distribuzioni, la prima è uniforme da 0 a 1, la seconda è una miscela di 2 uniformi, quindi è 1 tra 0 e 0,999 e anche 1 tra 9,99 e 10 (0 altrove). Quindi chiaramente queste distribuzioni sono diverse (se la differenza è significativa è un'altra domanda), ma se prendi una dimensione del campione di 50 da ciascuna (totale 100) c'è una probabilità superiore al 90% che vedrai solo valori compresi tra 0 e 0,999 e non riuscire a vedere alcuna differenza reale.

Esistono modi per eseguire quello che viene chiamato test di equivalenza in cui si chiede se le 2 distribuzioni / popolazioni sono equivalenti, ma è necessario definire ciò che si considera equivalente. Di solito è che una certa misura della differenza rientra in un determinato intervallo, ovvero la differenza nelle 2 medie è inferiore al 5% della media delle 2 medie, oppure la statistica KS è al di sotto di una data soglia, ecc. Se si può quindi calcolare un intervallo di confidenza per la statistica della differenza (la differenza di mezzi potrebbe essere solo l'intervallo di confidenza t, l'avvio del bootstrap, la simulazione o altri metodi potrebbero essere necessari per altre statistiche). Se l'intero intervallo di confidenza rientra nella "regione di equivalenza", consideriamo le 2 popolazioni / distribuzioni "equivalenti".

La parte difficile è capire quale dovrebbe essere la regione di equivalenza.


2
Un test di ipotesi nulla può mai fornire prove dell'ipotesi nulla, vero. La selezione del modello, bayesiano o basata su alcuni "criteri" (AIC, BIC) potrebbe tuttavia indicare che un modello nullo (distribuzioni identiche) è una descrizione migliore dei dati rispetto a un modello alternativo (distribuzione diversa). Tutto questo sotto una serie di ipotesi ovviamente.
A. Donda,

6

http://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test

Supponendo che i valori del tuo campione provengano da distribuzioni continue, suggerirei il test di Kolmogorov-Smirnov. Può essere usato per verificare se due campioni provengono da diverse distribuzioni (questo è il modo in cui sto interpretando il tuo utilizzo della popolazione) in base alle loro distribuzioni empiriche associate.

Direttamente da Wikipedia:

La distribuzione nulla di questa statistica è calcolata sotto l'ipotesi nulla che i campioni siano estratti dalla stessa distribuzione (nel caso di due campioni)

La funzione ks.test in R può essere utilizzata per questo test.

Anche se è vero che il kstest non verifica l'omogeneità, direi che se non riesci a rifiutare con una dimensione del campione abbastanza grande (un test ad alta potenza), puoi affermare che le differenze non sono praticamente significative. Si potrebbe dedurre che se esistono differenze, è probabile che non siano significative (di nuovo, assumendo una grande dimensione del campione). Non puoi concludere che appartengano alla stessa popolazione che altri hanno correttamente affermato. Detto questo, in genere esaminerei graficamente i due campioni per verificarne la somiglianza.


6
Dubito che il test KS possa essere usato per mostrare l'equivalenza distributiva.
Michael M,

@MichaelMayer è esattamente vero. OP è interessato a un test di omogeneità ... che presenta molti problemi metodologici di base. KS per eterogeneità ha anche i suoi problemi: in pratica, si sarà respingere in grandi campioni indipendentemente dal fatto che le popolazioni sono praticamente identici in tutti gli aspetti. Ciò dimostra semplicemente che i test, e di conseguenza i valori p, sono concepiti meglio come misure della dimensione del campione rispetto al significato statistico.
AdamO,

@AdamO Sì, ma se hai campioni di grandi dimensioni e non riesci a rifiutare, sarei sicuro che le popolazioni siano praticamente identiche. Per quanto ne so, non esiste una teoria a sostegno di ciò, ma per esperienza, sapendo che il KS per l'eterogeneità può rilevare minime differenze con grandi dimensioni del campione può consentire di utilizzare un test di campione di grandi dimensioni fallito come una dichiarazione di fatto praticamente popolazioni identiche. La mia risposta risponde alla domanda "calcola la probabilità statistica che questi due campioni siano stati estratti dalla stessa popolazione"? Certamente no.
Underminer,

Cosa posso fare se i miei punti sono bidimensionali ? Cioè, ho due campioni di punti bidimensionali e voglio sapere se provengono da distribuzioni distinte.
becko,

Il test KS funziona solo contro una distribuzione predefinita, non da una distribuzione con parametri stimati dai dati.
qwr

2

Puoi usare una 'funzione shift' che controlla se le 2 distribuzioni differiscono ad ogni decile. Mentre è tecnicamente un test per verificare se provengono da popolazioni diverse piuttosto che uguali, se le distribuzioni non differiscono su nessuno dei decili, puoi essere ragionevolmente sicuro che appartengano alla stessa popolazione, specialmente se le dimensioni del gruppo sono grandi.

Vorrei anche visualizzare i 2 gruppi: overlay loro distribuzioni e vedere se essi si assomigliano, o meglio ancora disegnare un paio di migliaia di campioni bootstrap da ogni gruppo e tracciare quelli , in quanto ciò darebbe un'idea dal fatto che essi provengono dalla stessa popolazione in particolare se la popolazione in questione non è normalmente distribuita per te data variabile.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.