Perché i valori di p e le statistiche di ks-test diminuiscono con l'aumentare della dimensione del campione? Prendi questo codice Python come esempio:
import numpy as np
from scipy.stats import norm, ks_2samp
np.random.seed(0)
for n in [10, 100, 1000, 10000, 100000, 1000000]:
x = norm(0, 4).rvs(n)
y = norm(0, 4.1).rvs(n)
print ks_2samp(x, y)
I risultati sono:
Ks_2sampResult(statistic=0.30000000000000004, pvalue=0.67507815371659508)
Ks_2sampResult(statistic=0.080000000000000071, pvalue=0.89375155241057247)
Ks_2sampResult(statistic=0.03499999999999992, pvalue=0.5654378910227662)
Ks_2sampResult(statistic=0.026599999999999957, pvalue=0.0016502962880920896)
Ks_2sampResult(statistic=0.0081200000000000161, pvalue=0.0027192461984023855)
Ks_2sampResult(statistic=0.0065240000000000853, pvalue=6.4573678008760032e-19)
Intuitivamente capisco che man mano che n cresce, il test è "più sicuro" che le due distribuzioni sono diverse. Ma se la dimensione del campione è molto grande, qual è il punto in test di somiglianza come questo e dire il test Anderson Darling, o il test t, perché in questi casi quando n è molto grande, le distribuzioni saranno sempre trovate "significativamente" diverso !? Ora mi chiedo quale diavolo siano i valori di p. Dipende molto dalla dimensione del campione ... se p> 0,05 e vuoi che sia più basso, ottieni solo più dati; e se p <0,05 e vuoi che sia più alto, rimuovi solo alcuni dati.
Inoltre, se le due distribuzioni fossero identiche, la statistica ks-test sarebbe 0 e il valore p 1. Ma nel mio esempio, quando n aumenta la statistica ks test suggerisce che le distribuzioni diventano sempre più simili con il tempo (diminuisce) , ma in base al valore p diventano sempre più diversi nel tempo (diminuisce anche).