Distribuzione di una distanza di Mahalanobis a livello di osservazione

Se ho un normale multivariato nel campione e definisco (che è una specie di distanza di Mahalanobis [al quadrato] da un punto campione al vettore usando la matrice per la ponderazione), qual è la distribuzione di (distanza di Mahalanobis al media campionaria utilizzando la matrice di covarianza del campione )? $X_1, \ldots, X_n \sim N_p(\mu,\Sigma)$

d_{i}^{2} (b, A) = (X_{i} - b)^{'} A^{- 1} (X_{i} - b)

$d_i^2(b,A) = (X_i - b)' A^{-1} (X_i - b)$

a

$a$

A

$A$

d_{i}^{2} (\bar{X}, S)

$d_i^2(\bar X,S)$

\bar{X}

$\bar X$

S

$S$

Sto guardando un documento che afferma che è $\chi^2_p$ , ma questo è ovviamente sbagliato: la distribuzione $\chi^2_p$ sarebbe stata ottenuta per $d_i^2(\mu,\Sigma)$ usando il vettore medio (sconosciuto) della popolazione e matrice di covarianza. Quando vengono collegati gli analoghi di esempio, si dovrebbe ottenere una distribuzione Hotelling $T^{\ 2}$ o una distribuzione scala $F(\cdot)$ o qualcosa del genere, ma non il $\chi^2_p$ . Non sono riuscito a trovare il risultato esatto né in Muirhead (2005) , né in Anderson (2003) , né in Mardia, Kent e Bibby (1979, 2003). Apparentemente, questi ragazzi non si sono preoccupati di una diagnostica esterna, poiché la distribuzione normale multivariata è perfetta e si ottiene facilmente ogni volta che si raccolgono dati multivariati: - /.

Le cose potrebbero essere più complicate di così. Il risultato della distribuzione Hotelling $T^{\ 2}$ si basa sull'assunzione di indipendenza tra la parte vettoriale e la parte matrice; tale indipendenza vale per $\bar X$ e $S$ , ma non è più vale per $X_i$ e $S$ .

multivariate-analysis outliers

— Stask
fonte

Nella definizione di , vedi ancora come una variabile casuale o la stai trattando come un vettore fisso? Includere il pedice suggerisce quest'ultimo, ma sembra un po 'strano.

d_{i}^{2}

$d_i^2$

X_{i}

$X_i$

— whuber

Solo una piccola nota a , ma nota che è accessorio rispetto a e è uguale a una costante fissa ( dovrebbe essere , o simile, credo) quasi sicuramente.

X_{i} - \bar{X}

$X_i - \bar{X}$

μ

$\mu$

\sum_{i} d_{i}^{2} (\bar{X}, S)

$\sum_i d_i^2(\bar{X},S)$

n - p

$n-p$

— cardinale il

@whuber - forse per sottolineare che è calcolato usando un'osservazione dal campione, non una nuova osservazione?

— jbowman,

@whuber, approssimativamente sulla falsariga di ciò che ha detto jbowman - per indicare che questa è una statistica a livello di osservazione (al contrario di una statistica a livello di campione, come la media campionaria).

— StasK

La distribuzione di è una beta, , ma sto ancora cercando la distribuzione di . Le distribuzioni dei non sono indipendenti.

d_{i}^{2} (\bar{X}, S)

$d_i^2(\bar X,S)$

n / (n - 1)^{2} d_{i}^{2} (\bar{X}, S) \sim B (p / 2, (n - p - 1) / 2)

$n/(n-1)^2 d_i^2(\bar X,S) \sim B(p/2, (n-p-1)/2)$

d_{i}^{2} (μ, S)

$d^2_i(\mu, S)$

d_{i}^{2}

$d^2_i$

Risposte:

Scopri la modellizzazione della miscela gaussiana sfruttando la distanza di Mahalanobis ( collegamento alternativo ). Vedi pagina n. 13, seconda colonna. Gli autori hanno anche fornito alcune prove anche per derivare la distribuzione. La distribuzione è beta ridimensionata. Per favore fatemi sapere se questo non funziona per voi. Altrimenti potrei controllare qualsiasi suggerimento nel libro di SS Wilks domani.

— Vinux
fonte

La risposta fornita nel documento è:

. Grazie!

\frac{n}{(n - 1)^{2}} d_{i}^{2} (\bar{X}, S) \sim B (\frac{p}{2}, \frac{n - p - 1}{2})

$\frac{n}{(n-1)^2} d_i^2(\bar X, S) \sim B(\frac{p}{2}, \frac{n-p-1}{2} )$

— StasK

Ci sono 3 distribuzioni rilevanti. Come notato, se vengono utilizzati i parametri di popolazione reali, la distribuzione è chi-quadrato con . Questa è anche la distribuzione asintotica con parametri stimati e grandi dimensioni del campione. $df=p$

Un'altra risposta fornisce la distribuzione corretta per la situazione più comune, con parametri stimati quando l'osservazione stessa fa parte del set di stima: Tuttavia, se l'osservazioneè indipendente dalle stime dei parametri, la distribuzione è proporzionale alla distribuzione del rapporto F di Fisher:

\frac{n (d^{2})}{(n - 1)^{2}} \sim B e t a (\frac{p}{2}, \frac{(n - p - 1)}{2}) .

$\frac{n(d^2)}{(n-1)^2} \sim Beta\left(\frac{p}{2}, \frac{(n-p-1)}{2}\right).$

x_{i}

$x_i$

(\frac{n d^{2} (n - p)}{(p (n - 1) (n + 1)}) \sim F (p, n - p)

$\left(\frac{nd^2(n-p)}{(p(n-1)(n+1)}\right) \sim F(p, n-p)$

— Joe Sullivan
fonte

Benvenuto nel sito, @JoeSullivan. Mi sono preso la libertà di usare

L A T E X

$\LaTeX$

puoi dare un riferimento per la formula F?

— eyaler

un riferimento correlato, sezione 3 in Hardin, Johanna e David M. Rocke. 2005. “The Distribution of Robust Distances.” Journal of Computational and Graphic Statistics 14 (4): 928–46. DOI: 10,1198 / 106186005X77685.

— Josef,