Motivazione della distanza di Kolmogorov tra le distribuzioni


45

Esistono molti modi per misurare quanto sono simili le due distribuzioni di probabilità. Tra i metodi che sono popolari (in diversi ambienti) ci sono:

  1. la distanza di Kolmogorov: la sup-distanza tra le funzioni di distribuzione;

  2. la distanza di Kantorovich-Rubinstein: la massima differenza tra le aspettative rispetto alle due distribuzioni di funzioni con la costante Lipschitz , che risulta anche essere la distanza tra le funzioni di distribuzione;1L1

  3. la distanza limitata di Lipschitz: come la distanza KR ma anche le funzioni devono avere un valore assoluto al massimo .1

Questi hanno diversi vantaggi e svantaggi. Solo la convergenza nel senso di 3. corrisponde effettivamente esattamente alla convergenza nella distribuzione; la convergenza nel senso di 1. o 2. è leggermente più forte in generale. (In particolare, se con probabilità , allora converge a nella distribuzione, ma non nella distanza di Kolmogorov. Tuttavia, se la distribuzione del limite è continua, questa patologia non si verifica. )Xn=1n1Xn0

Dal punto di vista della probabilità elementare o della teoria delle misure, 1. è molto naturale perché confronta le probabilità di essere in un certo insieme. Una prospettiva probabilistica più sofisticata, d'altra parte, tende a concentrarsi più sulle aspettative che sulle probabilità. Inoltre, dal punto di vista dell'analisi funzionale, le distanze come 2. o 3. basate sulla dualità con un certo spazio funzionale sono molto allettanti, perché esiste un ampio set di strumenti matematici per lavorare con tali cose.

Tuttavia, la mia impressione (correggimi se sbaglio!) È che nelle statistiche, la distanza di Kolmogorov è il modo solitamente preferito per misurare la somiglianza delle distribuzioni. Posso indovinare un motivo: se una delle distribuzioni è discreta con un supporto finito - in particolare, se si tratta della distribuzione di alcuni dati del mondo reale - allora la distanza di Kolmogorov a una distribuzione di modello è facile da calcolare. (La distanza KR sarebbe leggermente più difficile da calcolare, e la distanza BL sarebbe probabilmente impossibile in termini pratici.)

Quindi la mia domanda (finalmente) è: ci sono altri motivi, pratici o teorici, per favorire la distanza di Kolmogorov (o qualche altra distanza) a fini statistici?


1
Mi piace la domanda, potrebbe esserci già la maggior parte della possibile risposta nella domanda ... hai un'idea del tipo di risposta / sviluppo che desideri?
Robin Girard,

1
Non molto specificamente. Sono abbastanza ignorante delle statistiche e uno dei miei motivi per chiedere è di imparare quali criteri gli statistici userebbero per scegliere tra metriche diverse. Dato che ho già descritto un importante vantaggio pratico di 1 (puoi effettivamente calcolarlo), sono particolarmente interessato alle motivazioni teoriche. Dire, le informazioni fornite dalle stime della distanza di Kolmogorov sono spesso di uso diretto nelle applicazioni?
Mark Meckes,

Ho dimenticato di terminare il mio commento precedente con il più o meno ovvio: e se sì, come?
Mark Meckes,

Ho appena riletto il mio lungo commento sopra e ho capito che l'ultima domanda che ho sollevato è tanto una considerazione pratica quanto teorica. In ogni caso, è uno dei tipi di problemi che mi interesserebbero conoscere.
Mark Meckes,

So che non intendevi essere esaustivo, ma potresti aggiungere Anderson cara statistica (vedi en.wikipedia.org/wiki/Anderson%E2%80%93Darling_test ). Questo mi ha fatto ricordare un articolo di Jager e Wellner (vedi projecteuclid.org/… ) che estende / generalizza la cara statistica di Anderson (e include in particolare le critiche più alte su Tukey) ...
Robin Girard,

Risposte:


12

Marchio,

il motivo principale per cui sono consapevole dell'uso di KS è perché deriva naturalmente dai teoremi di Glivenko-Cantelli nei processi empirici univariati. L'unico riferimento che consiglierei è AWvan der Vaart "Statistiche asintotiche", cap. 19. Una monografia più avanzata è "Convergenza debole e processi empirici" di Wellner e van der Vaart.

Aggiungerei due brevi note:

  1. un'altra misura della distanza comunemente usata nelle distribuzioni univariate è la distanza di Cramer-von Mises, che è una distanza L ^ 2;
  2. negli spazi vettoriali generali vengono impiegate distanze diverse; lo spazio di interesse in molti documenti è polacco. Un'ottima introduzione è la "Convergenza delle misure di probabilità" di Billingsley.

Mi scuso se non posso essere più specifico. Spero che aiuti.


2
Due brevi note sulle tue note. 1. La distanza C-vM è precisamente la cugina L ^ 2 delle distanze Kolmogorov (L ^ infinito) e (univariata) KR (L ^ 1), e quindi interpola tra loro. 2. Un vantaggio che non ho menzionato delle distanze KR e BL è che si generalizzano in modo più naturale agli spazi di dimensione superiore.
Mark Meckes,

Per quanto riguarda 1., è corretto. Riguardo a 2. In linea di principio tutte le distanze di cui sopra potrebbero essere riportate su R ^ n, tuttavia non conosco i test non parametrici popolari basati su qualsiasi distanza. Sarebbe interessante sapere se ce ne sono.
gappy,

8

Le questioni computazionali sono l'argomento più forte che ho sentito in un modo o nell'altro. Il più grande vantaggio della distanza di Kolmogorov è che è molto semplice calcolare analiticamente per quasi tutti i CDF. La maggior parte delle altre metriche della distanza non ha un'espressione a forma chiusa tranne, a volte, nel caso gaussiano.

La distanza di Kolmogorov di un campione ha anche una distribuzione nota del campionamento dato il CDF (non credo che molti altri lo facciano), che finisce per essere correlato al processo di Wiener. Questa è la base per il test di Kolmogorov-Smirnoff per confrontare un campione con una distribuzione o due campioni tra loro.

Su una nota di analisi più funzionale, la norma sup è piacevole in quanto (come dici tu) definisce sostanzialmente una convergenza uniforme. Questo ti lascia con la convergenza della norma che implica una convergenza puntuale, e quindi se sei intelligente su come definisci le tue sequenze di funzioni puoi lavorare all'interno di un RKHS e utilizzare tutti i simpatici strumenti che fornisce anche.


8

In sintesi , la mia risposta è: se hai un'espressione esplicita o riesci a capire come sta misurando la tua distanza (a quali "differenze" dà peso), allora puoi dire per cosa è meglio. Un altro modo complementare per analizzare e confrontare tale test è la teoria minimax.

Alla fine alcuni test andranno bene per alcune alternative e altri per altri. Per un determinato insieme di alternative è possibile a volte dimostrare se il test ha proprietà ottimali nel peggiore dei casi: questa è la teoria minimax.


Alcuni dettagli

Quindi puoi parlare delle proprietà di due diversi test considerando l'insieme di alternative per cui sono minimax (se esiste tale alternativa) cioè (usando le parole di Donoho e Jin) confrontando il loro "rilevamento ottimale boudary" http: // projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1085408492 .

Lasciami andare distanza per distanza:

  1. La distanza KS si ottiene calcolando il supremum di differenza tra cdf empirico e cdf. Essendo un suppremum sarà altamente sensibile alle alternative locali (cambiamento locale nel cdf) ma non con il cambiamento globale (almeno usando la distanza L2 tra cdf sarebbe meno locale (sto aprendo la porta aperta?)). Tuttavia, la cosa più importante è che utilizza il cdf. Ciò implica un'asimmetria: dai maggiore importanza ai cambiamenti nella coda della tua distribuzione.

  2. La metrica di Wassertein (cosa intendevi con Kantorovitch Rubinstein?) Http://en.wikipedia.org/wiki/Wasserstein_metric è onnipresente e quindi difficile da confrontare.

    • Nel caso particolare di W2 è stato utilizzato in http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1017938923 ed è correlato alla distanza L2 per invertire il cdf. La mia comprensione è che dà ancora più peso alle code, ma penso che dovresti leggere l'articolo per saperne di più.
    • Nel caso della distanza L1 tra la funzione di densità dipenderà molto da come si stima la propria funzione di dentatura dai dati ... ma per il resto sembra essere un "test equilibrato" che non dà importanza alle code.

Per ricordare ed estendere il commento che ho fatto che completa la risposta:

So che non intendevi essere esaustivo, ma potresti aggiungere Anderson cara statistica (vedi http://en.wikipedia.org/wiki/Anderson%E2%80%93Darling_test ). Questo mi ha fatto ricordare un articolo di Jager e Wellner (vedi http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1194461721 ) che estende / generalizza Anderson caro statistica (e include in particolare critica più alta di Tukey). Critiche più alte hanno già dimostrato di essere minimax per una vasta gamma di alternative e lo stesso viene fatto da Jager e Wellner per la loro estensione. Non penso che la proprietà minimax sia stata mostrata per il test di Kolmogorov. Ad ogni modo, capire per quale tipo di alternativa è il tuo test minimax ti aiuta a sapere dov'è la sua forza, quindi dovresti leggere il documento sopra.


1
Sì, quella che ho chiamato la distanza di Kantorovitch-Rubinstein è anche chiamata L ^ 1 distanza di Wasserstein o W1. Va anche con molti altri nomi.
Mark Meckes,

3
Giusto per chiarire per chiunque non abbia familiarità con le distanze di Wasserstein che legge questo e la risposta di Gappy: la distanza L ^ 2 Wasserstein (W2) non è la stessa della distanza di Cramer-von Mises.
Mark Meckes,

4

Penso che si debbano considerare i vantaggi teorici e applicati delle diverse nozioni di distanza. Gli oggetti matematicamente naturali non si traducono necessariamente in un'applicazione. Kolmogorov-Smirnov è il più noto per l'applicazione ed è radicato nei test per la bontà di adattamento. Credo che una delle ragioni per questo è che quando la distribuzione sottostante è continua la distribuzione della statistica è indipendente da . Un altro è che può essere facilmente invertito per fornire bande di confidenza per il CDF.FF

Ma viene spesso utilizzato in un modo diverso in cui è stimato da e la statistica del test assume la forma L'interesse è vedere quanto bene adatta ai dati e agire come se , anche se la teoria asintotica non si applica necessariamente.FF^

supx|Fn(x)F^(x)|.
F^F^=F

3

Non posso darti ulteriori motivi per usare il test di Kolmogorov-Smirnov. Ma posso darti un motivo importante per non usarlo. Non si adatta bene alla coda della distribuzione. A questo proposito, un test di adattamento della distribuzione superiore è Anderson-Darling. Come secondo migliore, il test Chi Square è piuttosto buono. Entrambi sono considerati molto superiori al test KS in questo senso.


2

Dal punto di vista dell'analisi funzionale e della teoria delle misure, le distanze di tipo non definiscono insiemi misurabili su spazi di funzioni (spazi dimensionali infiniti perdono additivo numerabile nei rivestimenti di sfere metriche). Ciò squalifica fermamente qualsiasi tipo di interpretazione misurabile delle distanze delle scelte 2 e 3.Lp

Ovviamente Kolomogorov, essendo molto più brillante di chiunque di noi pubblicasse, specialmente me stesso incluso, lo anticipava. Il bit intelligente è che mentre la distanza nel test KS è della varietà , la norma uniforme stessa non viene utilizzata per definire i set misurabili. Piuttosto gli insiemi fanno parte di una filtrazione stocastica sulle differenze tra le distribuzioni valutate ai valori osservati; che equivale al problema del tempo di arresto.L0

In breve, è preferibile la distanza di norma uniforme della scelta 1 perché il test che implica è equivalente al problema del tempo di arresto, che a sua volta produce probabilità trattabili dal punto di vista computazionale. Dove le scelte 2 e 3 non possono definire sottoinsiemi misurabili di funzioni.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.