Genera coppie di numeri casuali distribuiti uniformemente e correlati

Vorrei generare coppie di numeri casuali con una certa correlazione. Tuttavia, il solito approccio all'uso di una combinazione lineare di due variabili normali non è valido qui, poiché una combinazione lineare di variabili uniformi non è più una variabile distribuita uniformemente. Ho bisogno che le due variabili siano uniformi.

Qualche idea su come generare coppie di variabili uniformi con una data correlazione?

correlation random-generation uniform

— Onturenio
fonte

Strettamente correlato: stats.stackexchange.com/questions/30526 . Vuoi anche dare un'occhiata al tag copula - fai clic sul link qui. Una tecnica veloce e sporca è quella di lasciare

X

$X$ uniforme

[0, 1]

$[0,1]$ e

Y = X

$Y=X$ quando

X \leq α

$X\le\alpha$ e altrimenti. La correlazione è , da cui fa il trucco. Ma le copule ti daranno un maggiore controllo ...

Y = 1 + α - X

$Y=1+\alpha-X$

ρ = 2 (α - 1)^{3} + 1

$\rho=2(\alpha-1)^3+1$

α = 1 - ((1 - ρ) / 2)^{1 / 3}

$\alpha=1-((1-\rho)/2)^{1/3}$

— whuber

Grazie per il commento, ma sì, penso che questo metodo sia davvero "sporco"

— Onturenio

La mia speranza era che, vedendo questo approccio, riconoscessi che puoi (e dovresti) fornire criteri aggiuntivi riguardanti le proprietà delle tue coppie di numeri casuali. Se questo è "sporco", allora che cosa c'è di sbagliato nella soluzione? Comunicaci in modo che possiamo fornire risposte più appropriate per la tua situazione.

— whuber

A questa domanda è stata data una risposta accidentale nella risposta a una domanda strettamente correlata: come generare coppie di camper con una relazione di regressione lineare. Poiché la pendenza della regressione lineare è correlata in modo facilmente calcolato al coefficiente di correlazione e possono essere prodotte tutte le pendenze possibili, ciò consente di produrre esattamente ciò che si desidera. Vedi stats.stackexchange.com/questions/257779/… .

— whuber

Vedi anche stats.stackexchange.com/questions/31771 , che risponde alla generalizzazione a tre uniformi casuali.

— whuber

Risposte:

Non sono a conoscenza di un metodo universale per generare variabili casuali correlate con una determinata distribuzione marginale. Quindi, proporrò un metodo ad hoc per generare coppie di variabili casuali distribuite uniformemente con una data correlazione (Pearson). Senza perdita di generalità, presumo che la distribuzione marginale desiderata sia uniforme standard (ovvero, il supporto è ). $[0, 1]$

L'approccio proposto si basa su quanto segue:
a) Per le variabili casuali uniformi standard e con le rispettive funzioni di distribuzione e , abbiamo , per . Quindi, per definizione, il rho di Spearman è $U_1$ $U_2$ $F_1$ $F_2$ $F_i(U_i) = U_i$ $i = 1, 2$ Quindi, il coefficiente di correlazione rho e Pearson di Spearman sono uguali (le versioni del campione potrebbero tuttavia differire).

ρ_{S} (U_{1}, U_{2}) = c o r r (F_{1} (U_{1}), F_{2} (U_{2})) = c o r r (U_{1}, U_{2}) .

$\rho_{\rm S}(U_1, U_2) = {\rm corr}(F_1(U_1), F_2(U_2)) = {\rm corr}(U_1, U_2) .$

b) Se sono variabili casuali con margini continui e copula gaussiana con coefficiente di correlazione (Pearson) , allora il rho di Spearman è $X_1, X_2$ $\rho$ Ciò semplifica la generazione di variabili casuali che hanno un valore desiderato del rho di Spearman.

ρ_{S} (X_{1}, X_{2}) = \frac{6}{π} \arcsin (\frac{ρ}{2}) .

$\rho_{\rm S}(X_1, X_2) = \frac{6}{\pi} \arcsin \left(\frac{\rho}{2}\right) .$

L'approccio è generare dati dalla copula gaussiana con un coefficiente di correlazione appropriato tale che il rho di Spearman corrisponda alla correlazione desiderata per le variabili casuali uniformi. $\rho$

Algoritmo di simulazione
Indichiamo il livello di correlazione desiderato e il numero di coppie da generare. L'algoritmo è: $r$ $n$

Calcola . $\rho = 2\sin (r \pi/6)$
Genera una coppia di variabili casuali dalla copula gaussiana (ad esempio, con questo approccio )
Ripetere il passaggio 2 volte. $n$

Esempio
Il seguente codice è un esempio di implementazione di questo algoritmo usando R con una correlazione target e coppie. $r = 0.6$ $n = 500$

## Initialization and parameters 
set.seed(123)
r <- 0.6                            # Target (Spearman) correlation
n <- 500                            # Number of samples

## Functions
gen.gauss.cop <- function(r, n){
    rho <- 2 * sin(r * pi/6)        # Pearson correlation
    P <- toeplitz(c(1, rho))        # Correlation matrix
    d <- nrow(P)                    # Dimension
    ## Generate sample
    U <- pnorm(matrix(rnorm(n*d), ncol = d) %*% chol(P))
    return(U)
}

## Data generation and visualization
U <- gen.gauss.cop(r = r, n = n)
pairs(U, diag.panel = function(x){
          h <- hist(x, plot = FALSE)
          rect(head(h$breaks, -1), 0, tail(h$breaks, -1), h$counts/max(h$counts))})

Nella figura seguente, i grafici diagonali mostrano istogrammi delle variabili e e i grafici off-diagonali mostrano grafici a dispersione di e . $U_1$ $U_2$ $U_1$ $U_2$ enter image description here

Per costruzione, le variabili casuali hanno margini uniformi e un coefficiente di correlazione (vicino a) . Ma a causa dell'effetto del campionamento, il coefficiente di correlazione dei dati simulati non è esattamente uguale a . $r$ $r$

cor(U)[1, 2]
# [1] 0.5337697

Si noti che la gen.gauss.copfunzione dovrebbe funzionare con più di due variabili semplicemente specificando una matrice di correlazione più ampia.

Studio di simulazione
Il seguente studio di simulazione ripetuto per la correlazione target suggerisce che la distribuzione del coefficiente di correlazione converge alla correlazione desiderata all'aumentare della dimensione del campione . $r= -0.5, 0.1, 0.6$ $n$

## Simulation
set.seed(921)
r <- 0.6                                                # Target correlation
n <- c(10, 50, 100, 500, 1000, 5000); names(n) <- n     # Number of samples
S <- 1000                                               # Number of simulations

res <- sapply(n,
              function(n, r, S){
                   replicate(S, cor(gen.gauss.cop(r, n))[1, 2])
               }, 
               r = r, S = S)
boxplot(res, xlab = "Sample size", ylab = "Correlation")
abline(h = r, col = "red")

enter image description here

— QuantIbex
fonte

Il metodo generale per generare distribuzioni multivariate correlate con determinate distribuzioni marginali è chiamato copula .

— whuber

@whuber, l'uso di copula consente di specificare una struttura di dipendenza tra variabili casuali. Il problema è che la correlazione (persona) è influenzata sia dalla struttura di dipendenza che dai margini. Pertanto, ogni scelta di margini richiederà una corrispondente scelta di parametri di copula, per non parlare del fatto che alcuni livelli di correlazione semplicemente non possono essere raggiunti per determinati margini (ad esempio, vedere qui ). Se sei a conoscenza di un metodo che consente di "controllare" il livello di correlazione per qualsiasi scelta di margini, mi piacerebbe saperlo.

— QuantIbex,

Grazie @QuantIbex. Ma non capisco perché "a) implica che il coefficiente di correlazione rho e (di Pearson) di Spearman per variabili casuali con margini uniformi standard sono approssimativamente uguali in un campione ampio"

— Onturenio,

[- 1, 1]

$[-1,1]$

@Quantibex Mi sono preso la libertà di aggiungere una frase che sottolinea che la tua gen.gauss.copfunzione funzionerà per più di due variabili con una (banale) modifica. Se non ti piace l'aggiunta o desideri metterla in modo diverso, ripristina o modifica se necessario.

— Glen_b

$u_1$ $U(0,1)$ $u_1$ $w_1$ $U(0,1)$ $I = 1$ $u_1$ $w_2$ $U(0,1)$ $I = 0$ $u_1$ $U(0,1)$ $u_2$

$E(u_1 u_2) = E[I w_1 + (1-I) w_2][I w_1 + (1-I) w_3]$

$I(I-1)=0$ $I^2=I$ $(1-I)^2=(1-I)$ $I$ $0$ $1$ $I$ $w$

$E(u_1 u_2) = E(I)E(w_1^2) + E(1-I)E(w_2)E(w_3)$ $=pE(w_1^2)+(1-p)/4$

$V(w_1)=1/12$ $E(w_1^2)=1/3$ $E(u_1 u_2) = p/12 + 1/4$ $cov(u_1 u_2) = p/12$ $V(u_1)=V(u_2)=1/12$ , we get finally that $cor(u_1, u_2) = p$ .

— Neal Oden
fonte

Here is one easy method for positive correlation: Let $(u_1, u_2) = Iw_1 + (1-I) (w_2, w_3)$ , where $w_1, w_2,$ and $w_3$ are independent $U(0,1)$ and $I$ is Bernoulli( $p$ ). $u_1$ and $u_2$ will then have $U(0,1)$ distributions with correlation $p$ . This extends immediately to $k$ -tuples of uniforms with compound symmetric variance matrix.

If you want pairs with negative correlation, use $(u_1, u_2) = I(w_1, 1-w_1) + (1-I)(w_2, w_3)$ , and the correlation will be $-p$ .

— Neal Oden
fonte

Can you add a short proof of why this works?

— The Laconic

if your want to be computationally efficient,

u_{1} = w_{1}

$u_1=w_1$ also produces the same correlation (both positive and negative cases)

— Anvit