Simulazione di disegni da una distribuzione uniforme usando disegni da una distribuzione normale

15

Di recente ho acquistato una risorsa di intervista per la scienza dei dati in cui una delle domande di probabilità era la seguente:

Dati i disegni di una distribuzione normale con parametri noti, come è possibile simulare i disegni da una distribuzione uniforme?

Il mio processo di pensiero originale era che, per una variabile casuale discreta, potevamo spezzare la distribuzione normale in K sottosezioni uniche in cui ogni sottosezione ha un'area uguale sotto la curva normale. Quindi potremmo determinare quale dei valori K assume la variabile riconoscendo in quale area della curva normale la variabile finisce per cadere.

Ma questo funzionerebbe solo con variabili casuali discrete. Ho fatto alcune ricerche su come potremmo fare lo stesso per variabili casuali continue, ma sfortunatamente sono riuscito a trovare solo tecniche come il campionamento di trasformazioni inverse che potrebbero utilizzare come input una variabile casuale uniforme e che potrebbero generare variabili casuali da qualche altra distribuzione. Pensavo che forse avremmo potuto fare questo processo al contrario per ottenere variabili casuali uniformi?

Ho anche pensato di utilizzare le variabili casuali normali come input in un generatore congruenziale lineare, ma non sono sicuro che funzionerebbe.

Qualche idea su come potrei affrontare questa domanda?

— wellington
fonte

30

Nello spirito di usare semplici calcoli algebrici che non sono correlati al calcolo della distribuzione normale , mi spingerei verso il seguente. Sono ordinati come ho pensato a loro (e quindi avevano bisogno di essere sempre più creativi), ma ho salvato il meglio - e il più sorprendente - per durare.

Invertire la tecnica di Box-Mueller : da ogni coppia di normali , due uniformi indipendenti possono essere costruite come (sull'intervallo ) ed (sull'intervallo ). $(X,Y)$ $\text{atan2}(Y,X)$ $[-\pi, \pi]$ $\exp(-(X^2+Y^2)/2)$ $[0,1]$
Prendi le normali in gruppi di due e somma i loro quadrati per ottenere una sequenza di variate . Le espressioni ottenute dalle coppie $\chi^2_2$ $Y_1, Y_2, \ldots, Y_i, \ldots$

$X_{i} = \frac{Y_{2 i}}{Y_{2 i - 1} + Y_{2 i}}$ $X_i = \frac{Y_{2i}}{Y_{2i-1}+Y_{2i}}$
avrà una $\text{Beta}(1,1)$ , che è uniforme.

Che ciò richieda solo l'aritmetica di base e semplice dovrebbe essere chiaro.
Poiché l' esatta distribuzione del coefficiente di correlazione di Pearson di un campione di quattro coppie da un bivariato standard La distribuzione normale è distribuita uniformemente su , possiamo semplicemente prendere le normali in gruppi di quattro coppie (ovvero otto valori in ogni set) e restituisce il coefficiente di correlazione di queste coppie. (Ciò comporta una semplice aritmetica più due operazioni con radice quadrata.) $[-1,1]$
È noto fin dall'antichità che una proiezione cilindrica della sfera (una superficie in tre spazi) è uguale area . Ciò implica che nella proiezione di una distribuzione uniforme sulla sfera, sia la coordinata orizzontale (corrispondente alla longitudine) sia la coordinata verticale (corrispondente alla latitudine) avranno distribuzioni uniformi. Poiché la distribuzione normale standard trivariata è sfericamente simmetrica, la sua proiezione sulla sfera è uniforme. Ottenere la longitudine è essenzialmente lo stesso calcolo dell'angolo nel metodo Box-Mueller ( qv ), ma la latitudine proiettata è nuova. La proiezione sulla sfera normalizza semplicemente un triplo di coordinate e a quel punto è la latitudine proiettata. Quindi, prendi le variate normali in gruppi di tre, , e calcola $(x,y,z)$ $z$ $X_{3i-2}, X_{3i-1}, X_{3i}$

$\frac{X_{3 i}}{\sqrt{X_{3 i - 2}^{2} + X_{3 i - 1}^{2} + X_{3 i}^{2}}}$ $\frac{X_{3i}}{\sqrt{X_{3i-2}^2 + X_{3i-1}^2 + X_{3i}^2}}$
per . $i=1, 2, 3, \ldots$
Poiché la maggior parte dei sistemi di elaborazione rappresenta numeri in binario , la generazione di numeri uniformi di solito inizia producendo numeri interi distribuiti uniformemente tra e (o una potenza elevata di $0$ $2^{32}-1$ $2$ relativa alla lunghezza delle parole del computer) e riscalandoli secondo necessità. Tali numeri interi sono rappresentati internamente come stringhe di cifre binarie. Possiamo ottenere bit casuali indipendenti confrontando una variabile normale con la sua mediana. Pertanto, è sufficiente suddividere le variabili normali in gruppi di dimensioni uguali al numero desiderato di bit, confrontare ognuna con la sua media e assemblare le sequenze risultanti dei risultati vero / falso in un numero binario. Scrivere $32$ $k$ per il numero di bit e per il segno (ovvero quando e altrimenti) possiamo esprimere il valore uniforme normalizzato risultante in con la formula $H$ $H(x)=1$ $x\gt 0$ $H(x)=0$ $[0, 1)$

$\sum_{j = 0}^{k - 1} H (X_{k i - j}) 2^{- j - 1} .$ $\sum_{j=0}^{k-1} H(X_{ki - j})2^{-j-1}.$
I variati possono essere disegnati da qualsiasi distribuzione continua la cui mediana è (come una normale normale); vengono elaborati in gruppi di con ciascun gruppo che produce un valore pseudo uniforme. $X_n$ $0$ $k$
Il campionamento del rifiuto è un modo standard, flessibile e potente per disegnare variate casuali da distribuzioni arbitrarie. Supponiamo che la distribuzione di destinazione abbia PDF . Viene disegnato un valore secondo un'altra distribuzione con PDF . Nella fase di rifiuto, un valore uniforme compreso tra e viene disegnato indipendentemente da e confrontato con : se è più piccolo, $f$ $Y$ $g$ $U$ $0$ $g(Y)$ $Y$ $f(Y)$ $Y$ viene mantenuto ma in caso contrario il processo viene ripetuto. Questo approccio sembra circolare, tuttavia: come possiamo generare una variazione uniforme con un processo che ha bisogno di una variazione uniforme per cominciare?

La risposta è che in realtà non abbiamo bisogno di una variazione uniforme per eseguire la fase di rifiuto. Invece (supponendo ) possiamo lanciare una moneta giusta per ottenere uno o modo casuale. Questo sarà interpretato come il primo bit nella rappresentazione binaria di una variabile uniforme nell'intervallo . Quando il risultato è , che mezzi ; altrimenti, . $g(Y)\ne 0$ $0$ $1$ $U$ $[0,1)$ $0$ $0 \le U \lt 1/2$ $1/2\le U \lt 1$ Metà del tempo, questo è sufficiente per decidere il passo rifiuto: se ma la moneta è , deve essere accettato; se ma la moneta è , deve essere respinto; altrimenti, occorre capovolgere nuovamente la moneta per ottenere il bit successivo di . Perché - non importa quale valore $f(Y)/g(Y) \ge 1/2$ $0$ $Y$ $f(Y)/g(Y) \lt 1/2$ $1$ $Y$ $U$ ha - v'è un possibilità di fermare dopo ogni lancio, il numero atteso di lanci è solo . $f(Y)/g(Y)$ $1/2$ $1/2(1)+1/4(2)+1/8(3)+\cdots+2^{-n}(n)+\cdots=2$

Il campionamento dei rifiuti può essere utile (ed efficiente) a condizione che il numero previsto di rifiuti sia ridotto. Possiamo ottenere ciò inserendo il rettangolo più grande possibile (che rappresenta una distribuzione uniforme) sotto un PDF normale.

Utilizzando Calculus per ottimizzare zona del rettangolo, si trova che i suoi punti finali dovrebbero essere al , in cui la sua altezza è pari a $\pm 1$ , rendendo la sua area leggermente superiore a. Usando questa densità normale standard comerifiutando automaticamente tutti i valori al di fuori dell'intervalloe applicando in altro modo la procedura di rifiuto, otterremo in modo efficiente varianze uniformi in: $\exp(-1/2)/\sqrt{2\pi}\approx 0.241971$ $0.48$ $g$ $[-1,1]$ $[-1,1]$
- In una frazione del tempo, la variabile normale si trova oltre e viene immediatamente respinta. ( è il CDF normale standard.) $2\Phi(-1) \approx 0.317$ $[-1,1]$ $\Phi$
- Nella restante parte del tempo, deve essere seguita la procedura di rifiuto binario, che richiede in media altre due variate.
- La procedura generale richiede una media di passi. $1/(2\exp(-1/2)/\sqrt{2\pi}) \approx 2.07$
Il numero atteso di variate normali necessarie per produrre ogni risultato uniforme risolve

$\sqrt{2 e π} (1 - 2 Φ (- 1)) \approx 2.82137.$

Sebbene sia abbastanza efficiente, si noti che (1) il calcolo del PDF normale richiede il calcolo di un esponenziale e (2) il valore deve essere pre-calcolato una volta per tutte. È ancora un po 'meno di calcolo rispetto al metodo Box-Mueller ( qv ). $\Phi(-1)$
Le statistiche degli ordini di una distribuzione uniforme presentano lacune esponenziali. Poiché la somma dei quadrati di due Normali (di media zero) è esponenziale, possiamo generare una realizzazione di uniformi indipendenti sommando i quadrati di coppie di tali Normali, calcolando la somma cumulativa di questi Normali, riscalando i risultati in modo che rientrino nell'intervallo e rilasciare l'ultimo (che sarà sempre uguale $n$ $[0,1]$ ). Questo è un approccio gradevole perché richiede solo la quadratura, la somma e (alla fine) una singola divisione. $1$

I valori saranno automaticamente in ordine crescente. Se si desidera tale ordinamento, questo metodo è computazionalmente superiore a tutti gli altri in quanto evita il costo di un ordinamento. Se è necessaria una sequenza di uniformi indipendenti, allora l'ordinamento casuale di questi valori farà il trucco. Poiché (come visto nel metodo Box-Mueller, qv ) i rapporti di ciascuna coppia di normali sono indipendenti dalla somma dei quadrati di ciascuna coppia, abbiamo già i mezzi per ottenere quella permutazione casuale: ordinare le somme cumulative in base ai rapporti corrispondenti . (Se $n$ $O(n\log(n))$ $n$ $n$ è molto grande, questo processo potrebbe essere eseguito in gruppi più piccoli di con una perdita di efficienza ridotta, poiché ogni gruppo ha bisogno solo di normali per creare valori uniformi. Per fisso , il costo computazionale asintotico è quindi = , che necessita di variate normali per generare $k$ $2(k+1)$ $k$ $k$ $O(n\log(k))$ $O(n)$ $2n(1+1/k)$ $n$ valori uniformi.)
Per una superba approssimazione, qualsiasi variabile normale con una grande deviazione standard appare uniforme su intervalli di valori molto più piccoli. Rotolando questa distribuzione nell'intervallo (prendendo solo le parti frazionarie dei valori), otteniamo così una distribuzione che è uniforme per tutti gli scopi pratici. Ciò è estremamente efficiente e richiede una delle operazioni aritmetiche più semplici di tutte: basta arrotondare ciascuna variabile Normale verso il numero intero più vicino e conservare l'eccesso. La semplicità di questo approccio diventa convincente quando esaminiamo un'implementazione pratica : $[0,1]$ R
```
rnorm(n, sd=10) %% 1
```
produce in modo affidabile nvalori uniformi nell'intervallo al costo di variate normali e quasi nessun calcolo. $[0,1]$ n

(Anche quando la deviazione standard è , il PDF di questa approssimazione varia da un PDF uniforme, come mostrato nella figura seguente, di meno di una parte in ! Per rilevarlo in modo affidabile richiederebbe un campione di valori-- questo è già al di là della capacità di qualsiasi test standard di casualità. Con una deviazione standard più grande la non uniformità è così piccola che non può nemmeno essere calcolata. Ad esempio, con una SD di come mostrato nel codice, la deviazione massima da una uniforme PDF è solo ) $1$ $10^8$ $10^{16}$ $10$ $10^{-857}$

In ogni caso, le variabili normali "con parametri noti" possono essere facilmente aggiornate e ridimensionate nelle normali standard assunte sopra. Successivamente, i valori distribuiti uniformemente risultanti possono essere aggiornati e riscalati per coprire qualsiasi intervallo desiderato. Questi richiedono solo operazioni aritmetiche di base.

La facilità di queste costruzioni è evidenziata dal seguente Rcodice, che utilizza solo una o due righe per la maggior parte di esse. La loro correttezza è testimoniata dalla conseguente pressoché uniforme istogrammi basa su valori indipendenti in ogni caso (che richiede circa 12 secondi per tutti i sette simulazioni). Per riferimento - nel caso in cui si sia preoccupati della quantità di variazione che appare in uno di questi grafici - alla fine è incluso un istogramma di valori uniformi simulato con il generatore di numeri casuali uniforme. $100,000$ R

Gli istogrammi

Tutte queste simulazioni sono state testate per l'uniformità usando un test basato su bin; nessuno poteva essere considerato significativamente non uniforme (il valore p più basso era del per i risultati generati dal generatore di numeri uniformi effettivo!). $\chi^2$ $1000$ $3\%$ R

set.seed(17)
n <- 1e5
y <- matrix(rnorm(floor(n/2)*2), nrow=2)
x <- c(atan2(y[2,], y[1,])/(2*pi) + 1/2, exp(-(y[1,]^2+y[2,]^2)/2))
hist(x, main="Box-Mueller")

y <- apply(array(rnorm(4*n), c(2,2,n)), c(3,2), function(z) sum(z^2))
x <- y[,2] / (y[,1]+y[,2])
hist(x, main="Beta")

x <- apply(array(rnorm(8*n), c(4,2,n)), 3, function(y) cor(y[,1], y[,2]))
hist(x, main="Correlation")

n.bits <- 32; x <-  (2^-(1:n.bits)) %*% matrix(rnorm(n*n.bits) > 0, n.bits)
hist(x, main="Binary")

y <- matrix(rnorm(n*3), 3)
x <- y[1, ] / sqrt(apply(y, 2, function(x) sum(x^2)))
hist(x, main="Equal area")

accept <- function(p) { # Using random normals, return TRUE with chance `p`
  p.bit <- x <- 0
  while(p.bit == x) {
    p.bit <- p >= 1/2
    x <- rnorm(1) >= 0
    p <- (2*p) %% 1
  }
  return(x == 0)
}
y <- rnorm(ceiling(n * sqrt(exp(1)*pi/2))) # This aims to produce `n` uniforms
y <- y[abs(y) < 1]
x <- y[sapply(y, function(x) accept(exp((x^2-1)/2)))]
hist(x, main="Rejection")

y <- matrix(rnorm(2*(n+1))^2, 2)
x <- cumsum(y)[seq(2, 2*(n+1), 2)]
x <- x[-(n+1)] / x[n+1]
x <- x[order(y[2,-(n+1)]/y[1,-(n+1)])] 
hist(x, main="Ordered")

x <- rnorm(n) %% 1 # (Use SD of 5 or greater in practice)
hist(x, main="Modular")

x <- runif(n)      # Reference distribution
hist(x, main="Uniform")

— whuber
fonte

2

Z = (X_{1} - X_{2}) / (X_{3} - X_{4})

$Z = (X_1 - X_2)/(X_3-X_4)$

X

$X$

1

Più in generale, il principio è quello di trovare una quantità fondamentale dal campione con un cdf computazionalmente suscettibile. Ciò si lega bene alla costruzione di intervalli di confidenza e test di ipotesi, con la svolta che potremmo cercare di ottimizzare il numero di elementi utilizzati piuttosto che questi ultimi casi che si concentrano maggiormente sulla massimizzazione delle informazioni da una dimensione del campione fissa.

— cardinale

@Cardinal Grazie per gli interessanti commenti, nonché per il nono metodo (Cauchy). Anche trovare una quantità fondamentale non è necessario quando si cerca solo una buona approssimazione. Ad esempio, (8) funziona perfettamente se si riserva un piccolo numero di risultati iniziali per stabilire una scala approssimativa.

— whuber

8

$X \sim N(\mu, \sigma^2)$ $\Phi_{\mu,\sigma^2}$ $\Phi_{\mu,\sigma^2}(X)$ $(0,1)$ $d \in (0,1)$

$P(\Phi_{\mu,\sigma^2}(X) \leq d) = P(X \leq \Phi_{\mu,\sigma^2}^{-1}(d)) = d$

$d$ $1$ $d \geq 1$ $\Phi_{\mu,\sigma^2}(X)$ $(0,1)$ $\sigma$ $\mathbb{R}$

— swmo
fonte

4

È l'inverso del campionamento della trasformata inversa!

— Roger Fan,

Potresti forse approfondire la seconda frase del tuo secondo paragrafo? Ho difficoltà a comprendere quanto segue: "Questo è sufficiente per mostrare che Φμ, σ2 (X) ha una distribuzione uniforme su (0,1) poiché abbiamo dimostrato che le misure corrispondenti sono uguali per un generatore dell'algebra di Borel su ℝ. "

— Wellington,

X

$X$

X (P)

$X(P)$

σ

$\sigma$