Densità della distribuzione normale all'aumentare delle dimensioni


15

La domanda che vorrei porre è questa: come varia la percentuale di campioni entro 1 DS della media di una distribuzione normale all'aumentare del numero di variate?

(Quasi) tutti sanno che in una distribuzione normale monodimensionale, il 68% dei campioni può essere trovato entro 1 deviazione standard della media. Che dire delle dimensioni 2, 3, 4, ...? So che diventa meno ... ma di quanto (precisamente)? Sarebbe utile avere una tabella che mostri le figure per 1, 2, 3 ... 10 dimensioni, nonché 1, 2, 3 ... 10 SD. Qualcuno può indicare un tavolo del genere?

Un po 'più di contesto: ho un sensore che fornisce dati su un massimo di 128 canali. Ogni canale è soggetto a rumore elettrico (indipendente). Quando rilevo un oggetto di calibrazione, posso calcolare la media di un numero sufficiente di misurazioni e ottenere un valore medio sui 128 canali, insieme a 128 singole deviazioni standard.

MA ... quando si tratta delle singole letture istantanee, i dati non rispondono tanto come 128 letture individuali quanto una singola lettura di una quantità vettoriale (fino a) 128-dimensonale. Certamente questo è il modo migliore per trattare le poche letture critiche che prendiamo (in genere 4-6 dei 128).

Voglio avere un'idea di ciò che è una variazione "normale" e di ciò che è "anomalo" in questo spazio vettoriale. Sono sicuro di aver visto un tavolo come quello che ho descritto che si applicherebbe a questo tipo di situazione - qualcuno può indicarne uno?


Per favore - posso avere solo risposte empiriche - non capisco la maggior parte della notazione matematica.
omatai,

Risposte:


19

Prendiamo : ogni X i è normale N ( 0 , 1 ) e la X i è indipendente - immagino che sia questo che intendi con dimensioni superiori.X=(X1,,Xd)N(0,I)XiN(0,1)Xi

Diresti che è entro 1 sd dalla media quando | | X | | < 1 (la distanza tra X e il suo valore medio è inferiore a 1). Adesso | | X | | 2 = X 2 1 + + X 2 dχ 2 ( d ) quindi ciò accade con probabilità P ( ξ < 1 ) dove ξ χ 2 ( d )X||X||<1||X||2=X12++Xd2χ2(d)P(ξ<1)ξ~χ2(d). Puoi trovarlo in buoni tavoli quadrati chi ...

Ecco alcuni valori:

dP(ξ<1)10.6820.3930.2040,09050.03760.01470,005280,001890,00056100,00017

E per 2 sd:

dP(ξ<4)10.9520.8630,7440.5950.4560,3270.2280.1490,089100,053

È possibile ottenere questi valori in R con commads come pchisq(1,df=1:10), pchisq(4,df=1:10)ecc

Post Scriptum Come sottolineato dal cardinale nei commenti, si può stimare il comportamento asintotico di queste probabilità. Il CDF di una variabile è F d ( x ) = P ( d / 2 , x / 2 ) = γ ( d / 2 , x / 2 )χ2(d) dovey(s,y)=y0ts-1e-tdtrappresenta l'incompletoγ-funzione, e classicalyΓ(s)=0ts-1e-tdt.

Fd(X)=P(d/2,X/2)=γ(d/2,X/2)Γ(d/2)
γ(s,y)=0yts1etdtγΓ(s)=0ts1etdt

Quando è un numero intero, l'integrazione ripetuta per parti mostra che P ( s , y ) = e - y k = s y ks che è la coda del CDF della distribuzione di Poisson.

P(s,y)=eyk=sykk!,

Ora questa somma è dominata dal suo primo termine (molte grazie al cardinale): P(s,y)yss!eysd

P(ξ<x)=P(d/2,x/2)1(d/2)!(x2)d/2ex/21πde12(dx)(xd)d21πe12xd12d,
dd

Benvenuto sul nostro sito, Elvis! Bella risposta. (+1)
whuber

1
ξd

Grazie per i vostri commenti. Non pensavo che questa risposta avrebbe ricevuto molta attenzione! È vero che questa è una bella forma della maledizione della dimensionalità ... @cardinale riguardante (3) Non conosco alcun equivalente asintotico della funzione gamma incompleta quando i primi parametri vanno all'infinito, il secondo viene riparato, questo non è facile! Si potrebbe fare una dura tesi, potrei scriverlo più tardi.
Elvis,

2
dd=2KZio=X2io-12+X2io2EXp(1/2)X2=Σio=1KZioX2KP(X2<1)=P(N1/2(0,1)K)=e-1/2ΣX=K2-X/X!P(X2<1)~e-1/22-K/Γ(K+1)dK=d/2

1
dP(X2<1)~e-1/22-K/Γ(K+1)~e(d-1)/2d-(d+1)/2/π
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.