I test che confrontano le distribuzioni sono test di esclusione. Cominciano con l'ipotesi nulla che le 2 popolazioni siano identiche, quindi cercano di respingere quell'ipotesi. Non possiamo mai dimostrare che il nulla sia vero, semplicemente rifiutarlo, quindi questi test non possono davvero essere usati per dimostrare che 2 campioni provengono dalla stessa popolazione (o popolazioni identiche).
Questo perché potrebbero esserci differenze minori nelle distribuzioni (nel senso che non sono identiche), ma così piccole che i test non riescono davvero a trovare la differenza.
Considera 2 distribuzioni, la prima è uniforme da 0 a 1, la seconda è una miscela di 2 uniformi, quindi è 1 tra 0 e 0,999 e anche 1 tra 9,99 e 10 (0 altrove). Quindi chiaramente queste distribuzioni sono diverse (se la differenza è significativa è un'altra domanda), ma se prendi una dimensione del campione di 50 da ciascuna (totale 100) c'è una probabilità superiore al 90% che vedrai solo valori compresi tra 0 e 0,999 e non riuscire a vedere alcuna differenza reale.
Esistono modi per eseguire quello che viene chiamato test di equivalenza in cui si chiede se le 2 distribuzioni / popolazioni sono equivalenti, ma è necessario definire ciò che si considera equivalente. Di solito è che una certa misura della differenza rientra in un determinato intervallo, ovvero la differenza nelle 2 medie è inferiore al 5% della media delle 2 medie, oppure la statistica KS è al di sotto di una data soglia, ecc. Se si può quindi calcolare un intervallo di confidenza per la statistica della differenza (la differenza di mezzi potrebbe essere solo l'intervallo di confidenza t, l'avvio del bootstrap, la simulazione o altri metodi potrebbero essere necessari per altre statistiche). Se l'intero intervallo di confidenza rientra nella "regione di equivalenza", consideriamo le 2 popolazioni / distribuzioni "equivalenti".
La parte difficile è capire quale dovrebbe essere la regione di equivalenza.