Esistono molti modi per misurare quanto sono simili le due distribuzioni di probabilità. Tra i metodi che sono popolari (in diversi ambienti) ci sono:
la distanza di Kolmogorov: la sup-distanza tra le funzioni di distribuzione;
la distanza di Kantorovich-Rubinstein: la massima differenza tra le aspettative rispetto alle due distribuzioni di funzioni con la costante Lipschitz , che risulta anche essere la distanza tra le funzioni di distribuzione;
la distanza limitata di Lipschitz: come la distanza KR ma anche le funzioni devono avere un valore assoluto al massimo .
Questi hanno diversi vantaggi e svantaggi. Solo la convergenza nel senso di 3. corrisponde effettivamente esattamente alla convergenza nella distribuzione; la convergenza nel senso di 1. o 2. è leggermente più forte in generale. (In particolare, se con probabilità , allora converge a nella distribuzione, ma non nella distanza di Kolmogorov. Tuttavia, se la distribuzione del limite è continua, questa patologia non si verifica. )
Dal punto di vista della probabilità elementare o della teoria delle misure, 1. è molto naturale perché confronta le probabilità di essere in un certo insieme. Una prospettiva probabilistica più sofisticata, d'altra parte, tende a concentrarsi più sulle aspettative che sulle probabilità. Inoltre, dal punto di vista dell'analisi funzionale, le distanze come 2. o 3. basate sulla dualità con un certo spazio funzionale sono molto allettanti, perché esiste un ampio set di strumenti matematici per lavorare con tali cose.
Tuttavia, la mia impressione (correggimi se sbaglio!) È che nelle statistiche, la distanza di Kolmogorov è il modo solitamente preferito per misurare la somiglianza delle distribuzioni. Posso indovinare un motivo: se una delle distribuzioni è discreta con un supporto finito - in particolare, se si tratta della distribuzione di alcuni dati del mondo reale - allora la distanza di Kolmogorov a una distribuzione di modello è facile da calcolare. (La distanza KR sarebbe leggermente più difficile da calcolare, e la distanza BL sarebbe probabilmente impossibile in termini pratici.)
Quindi la mia domanda (finalmente) è: ci sono altri motivi, pratici o teorici, per favorire la distanza di Kolmogorov (o qualche altra distanza) a fini statistici?