Perché non si può generalizzare il test di Kolmogorov-Smirnov su 2 o più dimensioni?


9

La domanda dice tutto. Ho letto entrambi che non si può generalizzare KS in una dimensione uguale o maggiore di due , e che implementazioni famose come quella nelle Ricette Numeriche sono semplicemente sbagliate. Potresti spiegare perché è così?


Ho aggiunto alcuni tag (bivariati, empirici e cdf), sulla base della sezione citata (nella mia risposta) del documento.
Glen_b

pedrofigueira - Ho apportato modifiche sostanziali alla mia risposta (il mio originale era sbagliato; mi dispiace per quello). Probabilmente farò più modifiche perché intendo tornare con riferimenti a diversi test KS multivariati.
Glen_b

@Glen_b grazie mille per tutto il tuo tempo e impegno!
pedrofigueira,

Risposte:


13

Credo che sia legittimo citare la parte pertinente del paragrafo in questione:

3. Il test KS non può essere applicato in due o più dimensioni. Gli astronomi hanno spesso set di dati con punti distribuiti in un piano o dimensioni superiori, anziché lungo una linea. Numerosi articoli nella letteratura astronomica pretendono di presentare un test KS bidimensionale, e uno è riprodotto nel famoso volume Ricette numeriche. Tuttavia, nessun test basato su EDF (inclusi KS, AD e test correlati) può essere applicato in due o più dimensioni, poiché non esiste un modo unico per ordinare i punti in modo da poter calcolare le distanze tra EDF ben definiti. È possibile costruire una statistica basata su una procedura di ordinamento e quindi calcolare le distanze supreme tra due set di dati (o un set di dati e una curva). Ma i valori critici della statistica risultante non sono esenti da distribuzione.

Come detto, questo sembra troppo forte.

1) La funzione di distribuzione bivariata, che è è una mappa da a . Cioè, la funzione prende valori reali univariati tra 0 e 1. Quei valori - essendo le probabilità - sono certamente "ordinati" già - e questo (il valore della funzione) è la cosa su cui dobbiamo confrontare per i test basati su ECDF . Allo stesso modo, l'ecdf, è perfettamente ben definito nel caso bivariato.R 2 [ 0 , 1 ] FF(x1,x2)=P(X1x1,X2x2)R2[0,1]F^

Non penso che sia necessariamente necessario provare a trasformarlo in una funzione di una variabile combinata univariata come suggerisce il testo. È sufficiente calcolare e in ogni combinazione richiesta e calcolare la differenza.FFF^

2) Tuttavia, sulla questione se sia privo di distribuzione, hanno un punto:

a) chiaramente tale statistica di prova non sarebbe alterata da modifiche alle trasformazioni dei margini, vale a dire, se costruita come prova di uniformi indipendenti bivariate, , allora funziona allo stesso modo nonché un test di indipendente cui . In tal senso, è privo di distribuzione (potremmo dire "senza margini").( X 1 , X 2 ) U i = F i ( X i )U=(U1,U2)(X1,X2)Ui=Fi(Xi)

b) tuttavia, c'è un punto sottostante più in generale nel senso più ampio del fatto che una versione ingenua della statistica KS (come ho appena descritto) non è più generalmente libera da distribuzione; non possiamo semplicemente trasformare arbitrario .X = g ( U )UX=g(U)

In una versione precedente della mia risposta ho detto:

Non c'è difficoltà, nessun problema

È sbagliato. Ci sono davvero problemi se c'è un cambiamento non solo dei margini delle uniformi indipendenti bivariate, come appena accennato. Tuttavia, tali difficoltà sono state considerate in vari modi in numerosi articoli che producono versioni bivariate / multivariate delle statistiche di Kolmogorov-Smirnov che non soffrono di questo problema.

Potrei tornare e aggiungere alcuni di quei riferimenti e alcune discussioni su come funzionano non appena il tempo lo consente.


Questa risposta è chiaramente corretta, ma attenzione: che il test KS può essere usato, non significa che dovrebbe essere usato. Di solito ci sono test di gran lunga migliori (più potenti).
kjetil b halvorsen,

Certamente, anche se dipende da quali alternative sono interessanti.
Glen_b

1
Non capisco pienamente questa risposta. Immagino che molti set di dati astronomici (così come molti altri set di dati di piccole dimensioni) non provengano da sistemi di coordinate intrinsecamente significativi. Pertanto, l'affermazione secondo cui i punti sono "già ordinati" non sarebbe valida in tali circostanze. Potrebbe essere salvato se si fosse in grado di dimostrare che la statistica KS è indipendente dalle coordinate utilizzate per identificare le posizioni . Non credo sia vero in due o più dimensioni, ma potrei sbagliarmi.
whuber

1
@whuber Ho apportato modifiche sostanziali alla luce della tua cortese risposta al mio errore. Probabilmente farò ulteriori cambiamenti quando aggiungerò riferimenti e maggiori dettagli nella speranza di dare una risposta che sarà più utile a lungo termine.
Glen_b

(+1) Grazie mille, Glen, per aver ampliato questa risposta e averla resa più sfumata. Sebbene trovo il riferimento del PO di dubbia qualità (all'inizio interpreta male il significato dei test di ipotesi), ammette infine che "il bootstrap può venire in soccorso, e i livelli di significatività per la particolare statistica multidimensionale e il particolare set di dati in studio possono essere calcolato numericamente. " Questo sembra allineato, almeno nello spirito, a come la tua risposta si sta formando.
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.