La matematica necessaria per ottenere un risultato esatto è disordinata, ma possiamo derivare un valore esatto per il coefficiente di correlazione al quadrato atteso relativamente indolore. Esso aiuta a spiegare perché un valore vicino continua a presentarsi e perché aumentando la lunghezza n del random walk non cambierà le cose.1 / 2n
Esiste il potenziale di confusione riguardo ai termini standard. La correlazione assoluta citata nella domanda, insieme alle statistiche che la compongono - varianze e covarianze - sono formule che si possono applicare a qualsiasi coppia di realizzazioni di passeggiate casuali. La domanda riguarda cosa succede quando guardiamo a molte realizzazioni indipendenti. Per questo, dobbiamo prendere le aspettative sul processo di camminata casuale.
(Modificare)
Prima di procedere, voglio condividere alcune informazioni grafiche con te. Una coppia di camminate casuali indipendenti è una camminata casuale in due dimensioni. Possiamo tracciare il percorso che passa da ciascuno ( X t , Y t ) a X t + 1 , Y t + 1 . Se questo percorso tende verso il basso (da sinistra a destra, tracciato sui soliti assi XY), quindi per studiare il valore assoluto della correlazione , neghiamo tutti i valori Y. Traccia le camminate su assi dimensionati per dare la X e( X, Y)( Xt, Yt)Xt + 1, Yt + 1YX valori uguali deviazioni standard e sovrappongono i minimi quadrati di Y a X . Le pendenze di queste linee saranno i valori assoluti dei coefficienti di correlazione, sempre compresi tra 0 e 1 .YYX01
Questa figura mostra passeggiate di questo tipo, ciascuna della lunghezza di 960 (con differenze normali standard). Piccoli cerchi aperti segnano i loro punti di partenza. Le occhiaie segnano le loro posizioni finali.15960
Queste pendenze tendono ad essere piuttosto grandi. I diagrammi a dispersione perfettamente casuali di questi punti avrebbero sempre pendenze molto vicine allo zero. Se dovessimo descrivere i modelli che emergono qui, potremmo dire che la maggior parte delle passeggiate casuali 2D migrano gradualmente da una posizione all'altra. (Questi non sono necessariamente i punti di partenza e di destinazione, tuttavia!) Circa la metà delle volte, quindi, la migrazione avviene in direzione diagonale e la pendenza è di conseguenza elevata.
Il resto di questo post delinea un'analisi di questa situazione.
Una passeggiata casuale è una sequenza di somme parziali ( W 1 , W 2 , ... , W n ) dove i W i sono variabili a media nulla indipendenti identicamente distribuite. Lascia che la loro varianza comune sia σ 2 .( Xio)( W1, W2, ... , Wn)Wioσ2
In una realizzazione di tale camminata, la "varianza" verrebbe calcolata come se si trattasse di un set di dati:x = ( x1, ... , xn)
V( x ) = 1n∑ ( xio- x¯)2.
Un buon modo per calcolare questo valore è prendere metà della media di tutte le differenze al quadrato:
V( x ) = 1n ( n - 1 )Σj > i( xj- xio)2.
XXn
E (V( X) ) = 1n( n - 1 )Σj > iE ( Xj- Xio)2.
Le differenze sono somme di variabili iid,
Xj-Xio= Wi + 1+ Wi + 2+ ⋯ + Oj.
WKWKσ2
E (( Wi + 1+ Wi + 2+ ⋯ + O2j) ) = ( j - i ) σ2.
Ne consegue facilmente
E ( V(X) ) = 1n ( n - 1 )Σj > i( j - i ) σ2= n + 16σ2.
Xy
E ( C(X, Y)2) = 3 n6- 2 n5- 3 n2+ 2 n480 n2( n - 1 )2σ4.
XYn
ρ2(n)=E(C(X,Y)2)E(V(X))2=3403n3−2n2+3n−2n3−n.
9/400.47ρ(n)
ρ2(n)1000ρ2(n)n|ρ(n)|
Questo è il R
codice per produrre la figura.
f <- function(n){
m <- (2 - 3* n + 2* n^2 -3 * n^3)/(n - n^3) * 3/40
}
n.sim <- 1e4
par(mfrow=c(1,4))
for (n in c(3, 10, 30, 100)) {
u <- matrix(rnorm(n*n.sim), nrow=n)
v <- matrix(rnorm(n*n.sim), nrow=n)
x <- apply(u, 2, cumsum)
y <- apply(v, 2, cumsum)
sim <- rep(NA_real_, n.sim)
for (i in 1:n.sim)
sim[i] <- cor(x[,i], y[,i])^2
z <- signif(sqrt(n.sim)*(mean(sim) - f(n)) / sd(sim), 3)
hist(sim,xlab="rho(n)^2", main=paste("n =", n), sub=paste("Z =", z))
abline(v=mean(sim), lwd=2, col="Red")
abline(v=f(n), col="Blue", lwd=2, lty=3)
}