Distribuzione di prodotti scalari di due vettori di unità casuali in dimensioni


27

Se e sono due vettori di unità casuali indipendenti in (distribuiti uniformemente su una sfera unitaria), qual è la distribuzione del loro prodotto scalare (prodotto punto) ?xyRDxy

Immagino che quando aumenta rapidamente la distribuzione (?) Diventa normale con media zero e varianza decrescente in dimensioni superiori ma esiste una formula esplicita per \ sigma ^ 2 (D) ?D

limDσ2(D)0,
σ2(D)

Aggiornare

Ho eseguito alcune simulazioni rapide. Innanzitutto, generando 10000 coppie di vettori di unità casuali per D=1000 è facile vedere che la distribuzione dei loro prodotti punto è perfettamente gaussiana (in effetti è già abbastanza gaussiana per D=100 ), vedi la sottotrama a sinistra. In secondo luogo, per ogni D compresa tra 1 e 10000 (con incrementi di passi) ho generato 1000 coppie e calcolato la varianza. Grafico log-log viene mostrato a destra, ed è chiaro che la formula è molto ben approssimato da 1/D . Nota che per D=1 e D=2 questa formula fornisce anche risultati esatti (ma non sono sicuro di cosa accadrà in seguito).

punteggia prodotti tra vettori di unità casuali


@KarlOskar: grazie, questo link è molto rilevante, e in effetti rende la mia domanda quasi un duplicato, ma non del tutto. Quindi esiste una formula esplicita per che è una funzione di distribuzione cumulativa dei prodotti punto. Si può prendere un derivato per ottenere il PDF e quindi studiare il limite da . Tuttavia, la formula viene data in termini di funzioni beta e funzioni beta incomplete, quindi è probabile che i calcoli siano cattivi. P{(x,y)>ϵ}D
ameba dice di reintegrare Monica il

@KarlOskar: dalla distribuzione uniforme su una sfera unità in . Per generare un vettore casuale da questa distribuzione, è possibile generare un vettore casuale da un gaussiano con una varianza unitaria e quindi normalizzarlo. RD
ameba dice di reintegrare Monica il

Risposte:


30

Poiché ( come è noto ) si ottiene una distribuzione uniforme sulla sfera unitaria normalizzando una distribuzione normale variabile e il prodotto punto dei vettori normalizzati è il loro coefficiente di correlazione, le risposte alle tre le domande sono:SD1Dt

  1. u=(t+1)/2 ha una distribuzione Beta .((D1)/2,(D1)/2)

  2. La varianza di uguale a (come ipotizzato nella domanda).t1/D

  3. La distribuzione standardizzata di avvicina alla normalità al ritmo ditO(1D).


Metodo

L' esatta distribuzione del prodotto punto dei vettori unità è facilmente ottenibile geometricamente, poiché questo è il componente del secondo vettore nella direzione del primo. Poiché il secondo vettore è indipendente dal primo ed è distribuito uniformemente sulla sfera unitaria, il suo componente nella prima direzione è distribuito come qualsiasi coordinata della sfera. (Notare che la distribuzione del primo vettore non ha importanza.)

Alla ricerca della densità

Lasciando che le coordinate siano le ultime, la densità at è quindi proporzionale alla superficie che si trova ad un'altezza compresa tra e sulla sfera dell'unità. Tale proporzione si verifica all'interno di una fascia di altezza e raggio che è essenzialmente un tronco conico costruito con una di raggio di altezza e pendenza . Da cui la probabilità è proporzionale at[1,1]tt+dtdt1t2,SD21t2,dt1/1t2

(1t2)D21t2dt=(1t2)(D3)/2dt.

Lasciare comporta . Sostituendo quello nel precedente si ottiene l'elemento probabilità fino a una costante normalizzante:u=(t+1)/2[0,1]t=2u1

fD(u)du(1(2u1)2)(D3)/2d(2u1)=2D2(uu2)(D3)/2du.

È immediato che abbia una distribuzione Beta , perché (per definizione) anche la sua densità è proporzionale au=(t+1)/2((D1)/2,(D1)/2)

u(D1)/21(1u)(D1)/21=(uu2)(D3)/2fD(u).

Determinare il comportamento limitante

Le informazioni sul comportamento limitante ne facilmente utilizzando tecniche elementari: può essere integrato per ottenere la costante di proporzionalità ; può essere integrato (usando le proprietà delle funzioni Beta, ad esempio) per ottenere momenti, mostrando che la varianza è e si riduce a (da cui, secondo il Teorema di Chebyshev, la probabilità si sta concentrando vicino a ); e la distribuzione limitante viene quindi trovata considerando i valori della densità della distribuzione standardizzata, proporzionale a per piccoli valori difDΓ(n2)πΓ(D12)tkfD(t)1/D0t=0fD(t/D),t :

log(fD(t/D))=C(D)+D32log(1t2D)=C(D)(1/2+32D)t2+O(t4D)C12t2

dove le rappresentano (log) le costanti di integrazione. Evidentemente la velocità con cui questo si avvicina alla normalità (per cui la densità del log è uguale a ) èC12t2O(1D).

figura

Questo diagramma mostra le densità del prodotto punto per , standardizzate alla varianza dell'unità, e la loro densità limite. I valori a aumentano con (dal blu al rosso, all'oro e quindi al verde per la densità normale standard). La densità per sarebbe indistinguibile dalla densità normale a questa risoluzione.D=4,6,100DD=1000


4
(+1) Grazie mille, @whuber, questa è un'ottima risposta! Un ringraziamento speciale per aver menzionato la parola "frustum". Succede che ho accettato un'altra risposta pochi minuti prima che tu abbia pubblicato la tua, e non vorrei accettarla ora; spero tu capisca. Peccato che non sia possibile accettare entrambi! A proposito, nota una prova molto semplice dell'espressione per la varianza da quella risposta: puoi vederlo direttamente senza scherzare con le funzioni beta! La varianza del prodotto punto è uguale alla varianza di qualsiasi coordinata della sfera (come hai scritto) e una somma di tutte le di esse dovrebbe essere , QED1/DD1
ameba dice Reinstate Monica

1
Questa è una bella osservazione sulle variazioni.
whuber

2
@amoeba, la recente attività ha portato di nuovo la mia attenzione anche qui, e per quanto apprezzo che tu abbia accettato la mia risposta, questa è molto più piena. Non mi dispiacerebbe affatto se tu fossi cambiato.
ekvall

1
@ Student001: questo è un commento giusto e generoso. Ho cambiato la risposta accettata. Ho anche trovato una tua Q e una tua da votare per compensare :)
ameba dice Reinstate Monica

1
@mat La distribuzione di è quella di . Ciò la rende una distribuzione Beta ridimensionata e spostata dall'intervallo all'intervallo . t2U1[0,1][1,1]
whuber

11

Troviamo la distribuzione e quindi la varianza segue i risultati standard. Considera il prodotto vettoriale e scrivilo sulla sua forma del coseno, ovvero nota che abbiamo dove è l'angolo tra ed . Nell'ultimo passaggio l'ho usato per qualsiasi evento eConsideriamo ora il termine . È chiaro che poiché è scelto in modo uniforme rispetto alla superficie della sfera, non importa quale

P(xyt)=P(|x||y|cosθt)=P(cosθt)=EP(cosθty),
θxyAB
EP(AB):=E[E[χAB]]=EχA=P(A).
P(cosθty)xyin realtà lo è, solo l'angolo tra e importante. Pertanto, il termine all'interno dell'aspettativa è in realtà costante in funzione di e possiamo wlog supporre cheQuindi otteniamo chema poiché è la prima coordinata di un vettore gaussiano normalizzato in abbiamo che è gaussiano con varianza invocando il risultato asintotico di questo documento .xyyy=[1,0,0,].
P(xyt)=P(x1t).
x1Rn,xy1/n

Per un risultato esplicito della varianza, utilizzare il fatto che il prodotto punto è zero medio per indipendenza e, come mostrato sopra, distribuito come la prima coordinata di . In base a questi risultati, trovare equivale a trovare . Ora, nota che per costruzione e così possiamo scrivere dove l'ultima uguaglianza segue da quella le coordinate di sono distribuite in modo identico. Mettendo insieme le cose, abbiamo scoperto chexVar(xy)Ex12xx=1

1=Exx=Ei=1nxi2=i=1nExi2=nEx12,
xVar(xy)=Ex12=1/n

Grazie, ma sono confuso: che cos'è esattamente "il risultato desiderato" e come segue dall'ultima equazione? La distribuzione di probabilità finale dovrebbe dipendere . D
ameba dice di reintegrare Monica il

In realtà il modo in cui il risultato segue dalla tua ultima equazione è esattamente ciò che è discusso sul thread math.SE che hai trovato. Implica distribuzioni beta ecc. E il comportamento limitante è (per me) tutt'altro che ovvio. Credo che ci dovrebbe essere un modo più semplice diretta di vedere che . σ2(D)1/D
ameba dice di reintegrare Monica il

Dipende dalla dimensione poiché , dove è il vettore gaussiano generato. Aggiornerò la risposta più tardi oggi o domani. x1=z1|z|1z
ekvall,

Caspita, il tuo ultimo link fornisce il limite di quell'espressione che coinvolge funzioni beta inverse (che avevo paura di calcolare) nella terza equazione a pagina 1. Quindi, per completare il ragionamento: se la sfera ha raggio , allora è (asintoticamente) distribuito come . Che significa che per sfera di raggio varianza unitaria è volte più piccolo, cioè . Tuttavia, ho ancora un problema: ho controllato da 1 a 4 e sembra dare una varianza esatta , anche se le distribuzioni per D = 1 o D = 2 sono molto lontane dalla norma. Dovrebbe esserci una ragione più profonda dietro questo. Dx1N(0,1)D1/DD1/D
L'ameba dice di reintegrare Monica il

@amoeba Sì, aggiornato con una prova di ciò.
ekvall,

2

Per rispondere alla prima parte della tua domanda, indica . Definire Il prodotto delle elementi di e indicati qui come saranno distribuiti secondo la distribuzione congiunta di e . quindi da , Z=X,Y=XiYi

fZi(zi)=fZ1,,ZD(z1,,zD)dzi
ithXYZiXiYi
fZi(zi)=fXi,Yi(x,zix)1|x|dx
Z=Zi
fZ(z)=fZ1,,ZD(z1,,zd)δ(zzi)dz1dzd

Per la seconda parte, penso che se vuoi dire qualcosa di interessante sul comportamento asintotico di devi almeno assumere l'indipendenza di e e quindi applicare un CLT.σXY

Ad esempio, se eri disposto a supporre che sono iid con e potresti dire che e .{Z1,,ZD}E[Zi]=μV[Zi]=σ2σ2(D)=σ2DlimDσ2(D)=0


Grazie, ma sono confuso riguardo alla seconda parte. e dovrebbero ovviamente essere indipendenti, aggiungerò questo alla domanda. Dici che , e questo suona ragionevole, ma qual è il comportamento asintotico di ? Credo che l'espressione che sto cercando dovrebbe dipendere solo su . A proposito in 2D se non sbaglio, mi chiedo se questo rimanga vero in dimensioni superiori ...XYσ2(D)=Var(zi)/DVar(zi)DVar(zi)=1/2
ameba dice Reinstate Monica

È davvero possibile che sia indipendente dato il requisito che e sono di lunghezza unitaria? ziXY
ekvall,

@tom: A proposito, mi sono sbagliato: in 2D è 1, è che è uguale a 1/2. Ho aggiornato la mia domanda con alcuni risultati di simulazione. Sembra che la formula corretta è . Var(zi)Var(z)1/D
ameba dice di reintegrare Monica il
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.