Come funziona la formula per generare variabili casuali correlate?


19

Se abbiamo 2 variabili casuali normali, non correlate allora possiamo creare 2 variabili casuali correlate con la formulaX1,X2

Y=ρX1+1ρ2X2

e poi avrà una correlazione con .ρYρX1

Qualcuno può spiegare da dove proviene questa formula?


1
Un'ampia discussione su questo e sui problemi correlati appare nella mia risposta su stats.stackexchange.com/a/71303 . Tra le altre cose, è chiaro che (1) l'assunzione della Normalità è irrilevante e (2) è necessario fare ipotesi aggiuntive: le varianze di e devono essere uguali affinché la correlazione di con sia . X 2 Y X 1 ρX1X2YX1ρ
whuber

Link molto interessante. Non sono sicuro di capire cosa intendi per normalità essendo irrilevante. Se o non sono normali e diventa più difficile controllare la densità di attraverso l'algoritmo Kaiser-Dickman. Questo è il motivo per cui algoritmi specializzati generano dati correlati non normali (ad es. Headrick, 2002; Ruscio & Kaczetow, 2008; Vale & Maurelli, 1983) Ad esempio, immagina che il tuo obiettivo sia generare ~ normale, ~ uniforme , con = .5. Usando ~ uniforme si ottiene una che non è uniforme ( finisce per essere una combinazione lineare di normale e uniforme). X 2 Y X Y ρ X 2 Y YX1X2YXYρX2YY
Anthony,

@Anthony La domanda si pone solo sulla correlazione , che è puramente una funzione del primo e del secondo momento. La risposta non dipende da altre proprietà delle distribuzioni. Quello di cui stai discutendo è un argomento completamente diverso.
whuber

Risposte:


17

Supponiamo di voler trovare una combinazione lineare di e tale cheX 2X1X2

corr(αX1+βX2,X1)=ρ

Nota che se moltiplichi e per la stessa costante (diversa da zero), la correlazione non cambierà. Pertanto, aggiungeremo una condizione per preservare la varianza:β var ( α X 1 + β X 2 ) = var ( X 1 )αβvar(αX1+βX2)=var(X1)

Questo equivale a

ρ=cov(αX1+βX2,X1)var(αX1+βX2)var(X1)=αcov(X1,X1)=var(X1)+βcov(X2,X1)=0var(αX1+βX2)var(X1)=αvar(X1)α2var(X1)+β2var(X2)

Supponendo che entrambe le variabili casuali abbiano la stessa varianza (questo è un presupposto cruciale!) ( ), otteniamovar(X1)=var(X2)

ρα2+β2=α

Esistono molte soluzioni a questa equazione, quindi è il momento di ricordare la condizione di conservazione della varianza:

var(X1)=var(αX1+βX2)=α2var(X1)+β2var(X2)α2+β2=1

E questo ci porta a

α=ρβ=±1ρ2

UPD . Per quanto riguarda la seconda domanda: sì, questo è noto come sbiancamento .


9

L'equazione è una forma bivariata semplificata della decomposizione di Cholesky . Questa equazione semplificata viene talvolta chiamata algoritmo di Kaiser-Dickman (Kaiser & Dickman, 1962).

Si noti che e X 2 devono avere la stessa varianza affinché questo algoritmo funzioni correttamente. Inoltre, l'algoritmo viene in genere utilizzato con variabili normali. Se X 1 o X 2 non sono normali, Y potrebbe non avere la stessa forma distributiva di X 2 .X1X2X1X2YX2

Riferimenti:

Kaiser, HF e Dickman, K. (1962). Matrici di punteggio campione e popolazione e matrici di correlazione campione da una matrice di correlazione della popolazione arbitraria. Psychometrika, 27 (2), 179-182.


2
Suppongo che non occorrano variabili normali standardizzate, basta avere la stessa varianza.
Artem Sobolev,

2
Y

X1X2Y

3

cosnthnthcosθsinθX1,X2
ρ=cosθ1ρ2=±sinθ

X1,X2


2
TEX
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.