Come interpretare il valore p del test di Kolmogorov-Smirnov (python)?

Ho due campioni che voglio testare (usando Python) se sono estratti dalla stessa distribuzione. Per fare ciò uso la funzione statistica ks_2samp di scipy.stats. Restituisce 2 valori e trovo difficoltà a interpretarli. Aiuto per favore!

python

— meri
fonte

Risposte:

Come sottolineato da Stijn, il test ks restituisce una statistica D e un valore p corrispondenti alla statistica D. La statistica D è la distanza massima assoluta (supremum) tra i CDF dei due campioni. Più questo numero è vicino a 0, più è probabile che i due campioni siano stati estratti dalla stessa distribuzione. Dai un'occhiata alla pagina di Wikipedia per il test ks. Fornisce una buona spiegazione: https://en.m.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test

Il valore p restituito dal test ks ha la stessa interpretazione di altri valori p. Rifiuti l'ipotesi nulla che i due campioni siano stati estratti dalla stessa distribuzione se il valore p è inferiore al tuo livello di significatività. Puoi trovare tabelle online per la conversione della statistica D in un valore p se sei interessato alla procedura.

— CrossValidatedTrading
fonte

La ringrazio per la risposta. In effetti, conosco il significato dei 2 valori D e P, ma non riesco a vedere la relazione tra loro. Come posso definire il livello di significatività? Potete darmi un link per la conversione della statistica D in un valore p?

— meri,

Certo, tabella per la conversione di D stat in valore p: soest.hawaii.edu/wessel/courses/gg313/Critical_KS.pdf

— CrossValidatedTrading

@CrossValidatedTrading: il tuo collegamento alla tabella D-stat-to-p-value è ora 404.

— james.garriss

@CrossValidatedTrading Dovrebbe esserci una relazione tra i valori p e i valori D del test KS fronte-retro? In alcuni casi, ho visto una relazione proporzionale, in cui la statistica D aumenta con il valore p. Sembra che sarebbe il contrario: che due curve con una differenza maggiore (statistica D più grande), sarebbero significativamente più diverse (valore p basso) ...

— Thomas Matthew,

se il valore p è> 0,05, i due campioni devono essere identici ed equilibrati.

— user798719

Quando esegui una ricerca su Google per ks_2samp, il primo successo è questo sito web. Su di esso, puoi vedere la specifica della funzione:

This is a two-sided test for the null hypothesis that 2 independent samples are drawn from the same continuous distribution.

Parameters : 
  a, b : sequence of 1-D ndarrays
  two arrays of sample observations assumed to be drawn from a continuous distribution, sample sizes can be different

Returns :   
  D : float,  KS statistic
  p-value : float, two-tailed p-value

— Stijn
fonte

I parametri aeb sono la mia sequenza di dati o dovrei calcolare i CDF per usare ks_2samp?

— meri,

@meri: c'è un esempio nella pagina a cui mi sono collegato.

— Stijn,