Qual è la distribuzione della distanza euclidea tra due variabili casuali normalmente distribuite?


41

Supponiamo che ti vengano dati due oggetti le cui posizioni esatte sono sconosciute, ma sono distribuiti secondo le normali distribuzioni con parametri noti (ad esempio e . Possiamo assumere questi sono entrambi normali bivariate, in modo tale che le posizioni sono descritti da una distribuzione su coordinate (cioè e sono vettori contenenti le attese coordinate per e rispettivamente). Supponiamo anche che gli oggetti siano indipendenti.aN(m,s)bN(v,t))(x,y)mv(x,y)ab

Qualcuno sa se la distribuzione della distanza euclidea quadrata tra questi due oggetti è una distribuzione parametrica nota? O come derivare analiticamente il PDF / CDF per questa funzione?


4
Dovresti ottenere un multiplo di una distribuzione chi-quadrato non centrale purché tutte e quattro le coordinate non siano correlate. Altrimenti, il risultato sembra molto più complicato.
whuber

@whuber eventuali dettagli / indicazioni che potresti fornire su come i parametri della risultante distribuzione chi-quadrato non centrale siano correlati a quelli degli oggetti a, b sarebbe fantastico
Nick

4
@Nick i primi paragrafi dell'articolo di Wikipedia forniscono i dettagli. Osservando le funzioni caratteristiche è possibile stabilire che un risultato simile non è disponibile quando non tutte le varianze sono uguali o ci sono alcune correlazioni.
whuber

@Nick, solo per chiarire, sia che sono vettori casuali con valori in ? abR2
mpiktas,

1
@ Nick, se e sono congiuntamente normale, allora la differenza è è normale troppo. Quindi il tuo problema è trovare la distribuzione di un vettore normale casuale. Googling Ho trovato questo link . L'articolo descrive un problema molto più complesso che in casi molto particolari coincide con il tuo. Questo dà qualche speranza che ci sia una risposta definitiva alla tua domanda. I riferimenti potrebbero darti ulteriori idee su dove cercare. abab
mpiktas,

Risposte:


24

La risposta a questa domanda può essere trovata nel libro Forme quadratiche in variabili casuali di Mathai e Provost (1992, Marcel Dekker, Inc.).

Come chiariscono i commenti, è necessario trovare la distribuzione di dove segue una distribuzione normale bivariata con media e matrice di covarianza . Questa è una forma quadratica nella variabile casuale bivariata .Q=z12+z22z=abμΣz

In breve, un bel risultato generale per il caso -dimensionale in cui e è che la funzione di generazione del momento è dove sono gli autovalori di e è una funzione lineare di . Vedi Teorema 3.2a.2 (pagina 42) nel libro sopra citato (assumiamo qui che non sia singolare). Un'altra rappresentazione utile è 3.1a.1 (pagina 29) dovepzNp(μ,Σ)

Q=j=1pzj2
E(etQ)=etj=1pbj2λj12tλjj=1p(12tλj)1/2
λ1,,λpΣbμΣ
Q=j=1pλj(uj+bj)2
u1,,up sono iid .N(0,1)

L'intero capitolo 4 del libro è dedicato alla rappresentazione e al calcolo delle densità e delle funzioni di distribuzione, il che non è affatto banale. Conosco solo superficialmente il libro, ma la mia impressione è che tutte le rappresentazioni generali siano in termini di infinite espansioni di serie.

Quindi in un certo senso la risposta alla domanda è, sì, la distribuzione della distanza euclidea quadrata tra due vettori normali bivariati appartiene a una classe nota (e ben studiata) di distribuzioni parametrizzata dai quattro parametri e . Tuttavia, sono abbastanza sicuro che non troverai questa distribuzione nei tuoi libri di testo standard.λ1,λ2>0b1,b2R

Si noti, inoltre, che e non hanno bisogno di essere indipendenti. La normalità articolare è sufficiente (che è automatica se sono indipendenti e ciascuna normale), quindi la differenza segue una distribuzione normale.abab


1
Grazie per il riferimento, ho trovato il libro e sto lentamente cercando di farmi strada
Nick,

@NRH Ho lavorato io stesso attraverso MGF nel caso simmetrico ( ) dove e invece di nella somma, ho . La simulazione verifica il primo momento. È possibile che questa sia la "funzione lineare" di cui parli e che sia peculiare al caso simmetrico, ma ho pensato di segnalarlo in caso di errore. λj=σ2p=2bj2λjμj2
Kyle,

In realtà, in base alla loro definizione di , il numeratore dell'esponenziale si riduce a nel caso simmetrico (dimensioni indipendenti con varianza comune). bjμj2
Kyle

7

Definisci innanzitutto la distribuzione bivariata del vettore differenza, , che sarà semplicemente ; ciò deriva dalla propagazione dell'incertezza multivariata , che coinvolge una matrice diagonale a blocchi e il giacobino .μd=μ1μ2Σd=Σ1+Σ2 Σd=JΣ12JTΣ12=[Σ1Σ2]J=[+I,I]

In secondo luogo, cercare la distribuzione della lunghezza del vettore di differenza o la distanza radiale dall'origine, che è distribuita da Hoyt :

Il raggio attorno alla media vera in una variabile casuale normale correlata bivariata con varianze disuguali, riscritto in coordinate polari (raggio e angolo), segue una distribuzione di Hoyt. Il pdf e il cdf sono definiti in forma chiusa, per trovare il cdf ^ −1 viene utilizzata la ricerca numerica della radice. Riduce alla distribuzione di Rayleigh se la correlazione è 0 e le varianze sono uguali.

Una distribuzione più generale sorge se si consente una differenza parziale (origine spostata), da Ballistipedia : Distribuzioni di coordinate xy e conseguente errore radiale


2
+1, ma penso che valga la pena sottolineare che la domanda riguarda ciò che la tua figura chiama "caso generale".
ameba dice Ripristina Monica il

1

Perché non provarlo?

set.seed(347)
x <- rnorm(10000)
y <- rnorm(10000)
x2 <- rnorm(10000)
y2 <- rnorm(10000)

qdf <- data.frame(x,y,x2,y2)
qdf <- data.frame(qdf,(x-x2)^2+(y-y2)^2)
colnames(qdf)[5] <- "euclid" 

plot(c(x,y),c(x2,y2))
plot(qdf$euclid)
hist(qdf$euclid) 
plot(dentist(qdf$euclid))

Trama 1 Trama 2 Trama 3 Trama 4


2
i commenti di Whubers alla domanda originale hanno già affermato come sarebbe se le variazioni fossero uguali e le variabili non fossero correlate. Forse dare un esempio di dove questo non è il caso sarebbe più illuminante.
Andy W,

Puoi fornire un esempio del genere?
Brandon Bertelsen,

tutto quello che devi fare è generare i valori xey che sono correlati o con varianze diverse. Le diverse variazioni potrebbero essere fatte proprio nel codice così com'è. È possibile generare valori da una matrice di covarianza specificata utilizzando mvrnorm dal pacchetto MASS. Inoltre, non sono sicuro di quale sia la funzione "dentista" nel codice sopra, dovrebbe forse essere "densità".
Andy W

1
Detto questo, probabilmente è altrettanto illuminante lavorare attraverso la matematica per capire perché questo è il caso (e come la manipolazione della varianza / covarianze cambierà la distribuzione). Non è del tutto chiaro per me perché questo avvenga osservando la funzione caratteristica menzionata da whuber. Sembra che una semplice comprensione delle regole per l'aggiunta, la sottrazione e la moltiplicazione di variabili casuali ti porterà a capire perché.
Andy W,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.