Perché le passeggiate casuali sono intercorrelate?


27

Ho osservato che, in media, il valore assoluto del coefficiente di correlazione di Pearson è una costante vicina a qualsiasi coppia di camminate casuali indipendenti, indipendentemente dalla lunghezza della camminata.0.560.42

Qualcuno può spiegare questo fenomeno?

Mi aspettavo che le correlazioni diminuissero con l'aumentare della lunghezza della camminata, come con qualsiasi sequenza casuale.

Per i miei esperimenti ho usato passeggiate gaussiane casuali con step 0 medio e deviazione standard step 1.

AGGIORNARE:

Ho dimenticato di centrare i dati, ecco perché è stato 0.56invece di 0.42.

Ecco lo script Python per calcolare le correlazioni:

import numpy as np
from itertools import combinations, accumulate
import random

def compute(length, count, seed, center=True):
    random.seed(seed)
    basis = []
    for _i in range(count):
        walk = np.array(list(accumulate( random.gauss(0, 1) for _j in range(length) )))
        if center:
            walk -= np.mean(walk)
        basis.append(walk / np.sqrt(np.dot(walk, walk)))
    return np.mean([ abs(np.dot(x, y)) for x, y in combinations(basis, 2) ])

print(compute(10000, 1000, 123))

Il mio primo pensiero è che man mano che la camminata si allunga, è possibile ottenere valori con una magnitudine più grande e la correlazione sta prendendo piede su questo.
John Paul

Ma questo funzionerebbe con qualsiasi sequenza casuale, se ho capito bene, ma solo le passeggiate casuali hanno quella costante correlazione.
Adam,

4
Questa non è una qualsiasi "sequenza casuale": le correlazioni sono estremamente alte, perché ogni termine è a un solo passo da quello precedente. Nota anche che il coefficiente di correlazione che stai calcolando non è quello delle variabili casuali coinvolte: è un coefficiente di correlazione per le sequenze (pensato semplicemente come dati accoppiati), che equivale a una grande formula che coinvolge vari quadrati e differenze di tutti i termini nella sequenza.
whuber

10
Stai parlando di correlazioni tra passeggiate casuali (tra le serie non all'interno di una serie)? In tal caso, è perché le tue passeggiate casuali indipendenti sono integrate ma non cointegrate, il che è una situazione ben nota in cui appariranno correlazioni spurie.
Chris Haug,

8
Se prendi una prima differenza, non troverai alcuna correlazione. La mancanza di stazionarietà è la chiave qui.
Paul

Risposte:


24

I tuoi processi indipendenti non sono correlati! Se e sono passeggiate casuali indipendenti:Y tXtYt

  • Non esiste un coefficiente di correlazione incondizionato nel tempo. (Non parlare di .)Corr(X,Y)
  • Per ogni momento , Corr ( X t , Y t ) è effettivamente 0.tCorr(Xt,Yt)
  • Ma le statistiche di esempio basate sulle medie delle serie temporali non convergeranno in nulla! Il coefficiente di correlazione del campione calcolato in base alla media di più osservazioni nel tempo non ha senso.

Intuitivamente, potresti indovinare (erroneamente) che:

  1. L'indipendenza tra due processi e { Y t } implica che non hanno alcuna correlazione. (Per due passeggiate casuali, Corr ( X , Y ) non esiste.){Xt}{Yt}Corr(X,Y)
  2. La serie temporale, correlazione campionaria ρ X Y (cioè il coefficiente di correlazione calcolato utilizzando serie temporali, statistiche campionarie come ^ μ X = 1ρ^XY) convergeranno sul coefficiente di correlazione della popolazioneρXYcomeT.μX^=1Tτ=1TXτρXYT

Il problema è che nessuna di queste affermazioni è vera per passeggiate casuali! (Sono veri per processi meglio educati.)

Per processi non stazionari:

  • Puoi parlare della correlazione tra i processi e { Y t } in due momenti particolari (ad es. Corr ( X 2 , Y 3 ) è un'affermazione perfettamente sensata).{Xt}{Yt}Corr(X2,Y3)
  • Ma non ha senso parlare della correlazione tra le due serie incondizionatamente in tempo! non ha un significato ben definito.Corr(X,Y)

I problemi nel caso di una passeggiata casuale?

  1. Per una passeggiata casuale , non esistono momenti incondizionati della popolazione (cioè che non dipendono dal tempo ), come E [ X ] . (In un certo senso, sono infiniti.) Allo stesso modo, il coefficiente di correlazione incondizionata ρ X Y tra due passeggiate casuali indipendenti non è zero; in realtà non esiste!tE[X]ρXY
  2. Le ipotesi dei teoremi ergodici non si applicano e varie medie delle serie temporali (ad es. )nonconvergono verso nulla comeT. 1TτXτT
    • Per una sequenza stazionaria, la media delle serie temporali alla fine converge sulla media che è incondizionata nel tempo. Ma per una sequenza non stazionaria, non c'è modo che sia incondizionato in tempo!

Se hai diverse osservazioni di due passeggiate casuali indipendenti nel tempo (ad es. , X 2 , ecc ... e Y 1 , Y 2 , ....) e calcoli il coefficiente di correlazione del campione, otterrai un numero tra - 1 e 1 . Ma non sarà un'approssimazione del coefficiente di correlazione della popolazione (che non esiste).X1X2Y1Y211

ρ X Y ( T ) (calcolati utilizzando medie serie temporali da t = 1 per t = T ) sta per essere fondamentalmente una variabile casuale (a valori in [ - 1 , 1 ] ), che riflette i due percorsi particolari le passeggiate casuali sono prese per caso (cioè i percorsi definiti dal disegno ω disegnati dallo spazio campione Ω .) Parlando in modo estremamente libero (e impreciso):ρ^XY(T)t=1t=T[1,1]ωΩ

  • Se entrambi e Y t è capitato di vagare nella stessa direzione, si rileva un rapporto positivo spuria.XtYt
  • Se e Y t vagano in diverse direzioni, rileverai una relazione negativa spuria.XtYt
  • Se e Y t sono vagati l'uno sull'altro abbastanza, rileverai una relazione quasi zero.XtYt

Puoi Google di più su questo con i termini spurious regression random walk.

Una camminata casuale non è stazionaria e prendere le medie nel tempo non converge su ciò che otterresti prendendo i disegni ω nello spazio campione Ω . Come menzionato nei commenti sopra, puoi prendere le prime differenze Δ x t = x t - x t - 1 e per una camminata casuale, quel processo { Δ x t } è stazionario.tωΩΔxt=xtxt1{Δxt}

Grande idea:

Più osservazioni nel tempo NON SONO le stesse di più disegni da uno spazio campione!

Ricordiamo che un processo stocastico a tempo discreto è una funzione sia del tempo ( t N ) sia di uno spazio campione Ω .{Xt}tNΩ

Affinché le medie nel tempo convergano verso le aspettative in uno spazio campione Ω , sono necessari stazionarietà ed ergodicità . Questo è un problema fondamentale in molte analisi di serie storiche. E una passeggiata casuale non è un processo stazionario.tΩ

Collegamento alla risposta di WHuber:

Se puoi prendere le medie attraverso più simulazioni (ovvero prendere più pareggi da ) invece di essere costretto a prendere le medie nel tempo t , un certo numero di problemi scompare.Ωt

Ovviamente si può definire ρ X Y ( t ) come il coefficiente di correlazione campionaria calcolata sulla X 1 ... X t e Y 1 ... Y t e questo sarà anche un processo stocastico.ρ^XY(t)X1XtY1Yt

Puoi definire alcune variabili casuali come:Zt

Zt=|ρ^XY(t)|

Per due passi casuali che iniziano da con incrementi di N ( 0 , 1 ) , è facile trovare E [ Z 10000 ] mediante simulazione (ovvero prendendo più pareggi da Ω .)0N(0,1)E[Z10000]Ω

Di seguito, ho eseguito una simulazione di 10.000 calcoli di un coefficiente di correlazione di Pearson di esempio. Ogni volta che io:

  • Simulato due passi casuali di 10.000 lunghezze (con incrementi normalmente distribuiti disegnati da ).N(0,1)
  • Calcolato il coefficiente di correlazione del campione tra loro.

Di seguito è riportato un istogramma che mostra la distribuzione empirica sui 10000 coefficienti di correlazione calcolati.

inserisci qui la descrizione dell'immagine

Si può chiaramente osservare che la variabile casuale ρ X Y ( 10000 ) può essere dappertutto nell'intervallo [ - 1 , 1 ] . Per due percorsi fissi di X e Y , il coefficiente di correlazione del campione non converge a nulla all'aumentare della lunghezza della serie temporale.ρ^XY(10000)[1,1]XY

D'altra parte, per un tempo particolare (ad es. ), il coefficiente di correlazione del campione è una variabile casuale con una media finita ecc ... Se prendo il valore assoluto e calcolo la media su tutte le simulazioni, Calcolo circa .42. Non sono sicuro del motivo per cui vuoi fare questo o perché questo è assolutamente significativo ??, ma ovviamente puoi farlo.t=10,000

Codice:

for i=1:10000 
  X = randn(10000,2); 
  Y = cumsum(X); 
  z(i) = corr(Y(:,1), Y(:,2));
end;
histogram(z,20);
mean(abs(z))

Poiché la dimensione del campione ovviamente non è limitata, le tue affermazioni su varie quantità inesistenti sono sconcertanti. È difficile vedere come i tuoi simboli si applicano alla situazione descritta dal PO.
whuber

Le dimensioni del tuo campione non vanno MAI MAI all'infinito! Non fino a quando si prelevano campioni con un computer ( solo in matematica pura è possibile fare simili ipotesi ). E cosa significa: poiché hai infiniti punti, non converge? Dove l'hai letto?
Mayou36,

@whuber Speriamo che questa versione sia un po 'più chiara. Immagino che l'OP stia chiedendo perché il coefficiente di correlazione del campione (basato sulle medie delle serie temporali) tra due segmenti finiti di camminate casuali non sia zero, anche per serie temporali di immensa lunghezza. Un problema fondamentale è che per una passeggiata casuale non esistono vari momenti della popolazione e le medie delle serie temporali non convergono in nulla.
Matthew Gunn,

Tuttavia, per fisso tutto è finito. Inoltre, l'attesa del campione coefficiente di correlazione assoluta fa convergere n aumenta! Si noti inoltre che la domanda riguarda il valore assoluto di tale coefficiente. La sua aspettativa (ovviamente) è zero. nn
whuber

1
@whuber Intendi per serie temporale fissa , tutto è finito? (Sì, sono d'accordo con quello.) L'aspettativa della correlazione del campione è zero (sì, sono d'accordo con quello). Con l' aumento di t , tuttavia, la correlazione del campione non converge su un singolo punto. Per due segmenti di camminata casuali di lunghezza arbitraria, il coefficiente di correlazione del campione non è così lontano da un'estrazione casuale dalla distribuzione uniforme su [0, 1] (vedere istogramma). tt
Matthew Gunn,

15

La matematica necessaria per ottenere un risultato esatto è disordinata, ma possiamo derivare un valore esatto per il coefficiente di correlazione al quadrato atteso relativamente indolore. Esso aiuta a spiegare perché un valore vicino continua a presentarsi e perché aumentando la lunghezza n del random walk non cambierà le cose.1/2n

Esiste il potenziale di confusione riguardo ai termini standard. La correlazione assoluta citata nella domanda, insieme alle statistiche che la compongono - varianze e covarianze - sono formule che si possono applicare a qualsiasi coppia di realizzazioni di passeggiate casuali. La domanda riguarda cosa succede quando guardiamo a molte realizzazioni indipendenti. Per questo, dobbiamo prendere le aspettative sul processo di camminata casuale.


(Modificare)

Prima di procedere, voglio condividere alcune informazioni grafiche con te. Una coppia di camminate casuali indipendenti è una camminata casuale in due dimensioni. Possiamo tracciare il percorso che passa da ciascuno ( X t , Y t ) a X t + 1 , Y t + 1 . Se questo percorso tende verso il basso (da sinistra a destra, tracciato sui soliti assi XY), quindi per studiare il valore assoluto della correlazione , neghiamo tutti i valori Y. Traccia le camminate su assi dimensionati per dare la X e(X,Y)(Xt,Yt)Xt+1,Yt+1YX valori uguali deviazioni standard e sovrappongono i minimi quadrati di Y a X . Le pendenze di queste linee saranno i valori assoluti dei coefficienti di correlazione, sempre compresi tra 0 e 1 .YYX01

Questa figura mostra passeggiate di questo tipo, ciascuna della lunghezza di 960 (con differenze normali standard). Piccoli cerchi aperti segnano i loro punti di partenza. Le occhiaie segnano le loro posizioni finali.15960

figura

Queste pendenze tendono ad essere piuttosto grandi. I diagrammi a dispersione perfettamente casuali di questi punti avrebbero sempre pendenze molto vicine allo zero. Se dovessimo descrivere i modelli che emergono qui, potremmo dire che la maggior parte delle passeggiate casuali 2D migrano gradualmente da una posizione all'altra. (Questi non sono necessariamente i punti di partenza e di destinazione, tuttavia!) Circa la metà delle volte, quindi, la migrazione avviene in direzione diagonale e la pendenza è di conseguenza elevata.

Il resto di questo post delinea un'analisi di questa situazione.


Una passeggiata casuale è una sequenza di somme parziali ( W 1 , W 2 , ... , W n ) dove i W i sono variabili a media nulla indipendenti identicamente distribuite. Lascia che la loro varianza comune sia σ 2 .(Xio)(W1,W2,...,Wn)Wioσ2

In una realizzazione di tale camminata, la "varianza" verrebbe calcolata come se si trattasse di un set di dati:X=(X1,...,Xn)

V(X)=1nΣ(Xio-X¯)2.

Un buon modo per calcolare questo valore è prendere metà della media di tutte le differenze al quadrato:

V(X)=1n(n-1)Σj>io(Xj-Xio)2.

XXn

E(V(X))=1n(n-1)Σj>ioE(Xj-Xio)2.

Le differenze sono somme di variabili iid,

Xj-Xio=Wio+1+Wio+2++Wj.

WKWKσ2

E((Wio+1+Wio+2++Wj2))=(j-io)σ2.

Ne consegue facilmente

E(V(X))=1n(n-1)Σj>io(j-io)σ2=n+16σ2.

Xy

E(C(X,Y)2)=3n6-2n5-3n2+2n480n2(n-1)2σ4.

XYn

ρ2(n)=E(C(X,Y)2)E(V(X))2=3403n32n2+3n2n3n.

9/400.47ρ(n)


ρ2(n)1000ρ2(n)n|ρ(n)|

figura

Questo è il Rcodice per produrre la figura.

f <- function(n){
  m <- (2 - 3* n + 2* n^2 -3 * n^3)/(n - n^3) * 3/40 
}
n.sim <- 1e4
par(mfrow=c(1,4))
for (n in c(3, 10, 30, 100)) {
  u <- matrix(rnorm(n*n.sim), nrow=n)
  v <- matrix(rnorm(n*n.sim), nrow=n)
  x <- apply(u, 2, cumsum)
  y <- apply(v, 2, cumsum)
  sim <- rep(NA_real_, n.sim)
  for (i in 1:n.sim)
    sim[i] <- cor(x[,i], y[,i])^2
  z <- signif(sqrt(n.sim)*(mean(sim) - f(n)) / sd(sim), 3)
  hist(sim,xlab="rho(n)^2", main=paste("n =", n), sub=paste("Z =", z))
  abline(v=mean(sim), lwd=2, col="Red")
  abline(v=f(n), col="Blue", lwd=2, lty=3)
}

E[ρ2]T=100

ΩXt

1
9/40n

9/40XtYt(Xt,Yt)

2
Un'analisi asintotica dei problemi discussi qui può essere trovata in Phillips (1986), Teorema 1e .
Christoph Hanck,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.