La correlazione presuppone la stazionarietà dei dati?


27

L'analisi tra mercati è un metodo per modellare il comportamento del mercato attraverso la ricerca di relazioni tra mercati diversi. Spesso, viene calcolata una correlazione tra due mercati, affermano S&P 500 e titoli del tesoro statunitensi trentennali. Questi calcoli sono spesso basati sui dati sui prezzi, il che è ovvio per tutti che non si adatta alla definizione di serie temporali fisse.

Possibili soluzioni a parte (utilizzando invece i rendimenti), il calcolo della correlazione i cui dati non stazionari è anche un calcolo statistico valido?

Diresti che un tale calcolo di correlazione è in qualche modo inaffidabile o semplicemente assurdità?


1
cosa intendi con "calcolo statistico valido" dovresti dire un calcolo statistico (stima) valido di qualcosa. Qui qualcosa è molto importante. La correlazione è un calcolo valido della relazione lineare tra due serie di dati. Non capisco perché hai bisogno di stazionarietà, intendevi auto-correlazione?
Robin Girard,

2
esiste un nuovo sito che potrebbe essere più adatto alla tua domanda: quant.stackexchange.com . Ora stai chiaramente confondendo il calcolo con l'interpretazione.
mpiktas,

@mpiktas, la comunità quantistica si basa sull'utilizzo dei rendimenti rispetto ai prezzi a causa della stazionarietà dei rendimenti e della non stazionarietà dei prezzi. Sto chiedendo qui qualcosa di più di una spiegazione intuitiva del perché questo dovrebbe essere così.
Milktrader,

@robin, ci sono diverse cose che potrebbero farti mettere in dubbio un'analisi statistica. Mi viene in mente la dimensione del campione, così come le cose più ovvie come i dati manipolati. La non stazionarietà dei dati mette in discussione un calcolo di correlazione?
Milktrader,

non il calcolo, forse l'interpretazione se la correlazione non è elevata. Se è alto significa alta correlazione (cioè alta relazione lineare), due serie temporali non stazionarie dicono e possono essere potenzialmente altamente correlate (ad esempio quando .( Y t ) X t = Y t(Xt)(Yt)Xt=Yt
robin girard

Risposte:


37

La correlazione misura la relazione lineare. Nel contesto informale la relazione significa qualcosa di stabile. Quando calcoliamo la correlazione del campione per le variabili stazionarie e aumentiamo il numero di punti dati disponibili, questa correlazione del campione tende alla vera correlazione.

Si può dimostrare che per i prezzi, che di solito sono passeggiate casuali, la correlazione del campione tende a una variabile casuale. Ciò significa che, indipendentemente da quanti dati abbiamo, il risultato sarà sempre diverso.

Nota che ho provato ad esprimere l'intuizione matematica senza la matematica. Dal punto di vista matematico la spiegazione è molto chiara: i momenti di esempio di processi stazionari convergono in probabilità in costanti. I momenti di esempio di camminate casuali convergono in integrali di moto browniano che sono variabili casuali. Poiché la relazione viene solitamente espressa come un numero e non come una variabile casuale, diventa evidente la ragione per cui non si calcola la correlazione per variabili non stazionarie.

Aggiornamento Poiché siamo interessati alla correlazione tra due variabili, assumiamo innanzitutto che provengano dal processo stazionario . La stazionarietà implica che e non dipendono da . Quindi correlazioneE Z t c o v ( Z t , Z t - h ) tZt=(Xt,Yt)EZtcov(Zt,Zth)t

corr(Xt,Yt)=cov(Xt,Yt)DXtDYt

inoltre non dipende da , poiché tutte le quantità nella formula provengono da matrice , che non dipende da . Quindi il calcolo della correlazione del campionec o v ( Z t ) ttcov(Zt)t

ρ=corr(Xt,Yt)ρρT

ρ^=1Tt=1T(XtX¯)(YtY¯)1T2t=1T(XtX¯)2t=1T(YtY¯)2
ha senso, dal momento che potremmo avere ragionevoli speranze che la correlazione del campione . Si scopre che questa speranza non è infondata, poiché per i processi stazionari che soddisfano determinate condizioni abbiamo che , come in probabilità. Inoltre nella distribuzione, in modo da poter testare le ipotesi su .ρ=corr(Xt,Yt)ρ^ρTρT(ρ^ρ)N(0,σρ2)ρ

Supponiamo ora che non sia fermo. Quindi può dipendere da . Quindi, quando osserviamo un campione di dimensione potremmo possibilmente stimare correlazioni diverse . Questo è ovviamente impossibile, quindi nel migliore dei casi possiamo solo stimare alcune funzionalità di come media o varianza. Ma il risultato potrebbe non avere un'interpretazione sensata. c o r r ( X t , Y t ) t T T ρ t ρ tZtcorr(Xt,Yt)tTTρtρt

Esaminiamo ora cosa succede con la correlazione della camminata casuale di processo non stazionario probabilmente più studiata. Chiamiamo il processo una camminata casuale se , dove è un processo stazionario. Per semplicità supponiamo che . PoiZ t = t s = 1 ( U t , V t ) C t = ( U t , V t ) E C t = 0Zt=(Xt,Yt)Zt=s=1t(Ut,Vt)Ct=(Ut,Vt)ECt=0

corr(XtYt)=EXtYtDXtDYt=Es=1tUts=1tVtDs=1tUtDs=1tVt

Per semplificare ulteriormente le cose, supponiamo che sia un rumore bianco. Ciò significa che tutte le correlazioni sono zero per . Si noti che ciò non limita a zero.E ( C t C t + h ) h > 0 c o r r ( U t , V t )Ct=(Ut,Vt)E(CtCt+h)h>0corr(Ut,Vt)

Quindi

corr(Xt,Yt)=tEUtVtt2DUtDVt=corr(U0,V0).

Fin qui tutto bene, sebbene il processo non sia stazionario, la correlazione ha un senso, anche se abbiamo dovuto fare le stesse ipotesi restrittive.

Ora, per vedere cosa succede alla correlazione campionaria, dovremo usare il fatto seguente sulle passeggiate casuali, chiamato teorema del limite centrale funzionale:

s[0,1]Ws=(W1s,W2s)Ms=(M1s,M2s)=(

1TZ[Ts]=1Tt=1[Ts]Ct(cov(C0))1/2Ws,
nella distribuzione, dove e è bivariato Moto browniano (processo di salciccia bidimensionale). Per comodità introdurre la definizione .s[0,1]Ws=(W1s,W2s)Ms=(M1s,M2s)=(cov(C0))1/2Ws

Ancora una volta, per semplicità, definiamo la correlazione del campione come

ρ^=1Tt=1TXtYt1Tt=1TXt21Tt=1TYt2

Cominciamo con le variazioni. abbiamo

E1Tt=1TXt2=1TEt=1T(s=1tUt)2=1Tt=1TtσU2=σUT+12.

Questo va all'infinito all'aumentare di , quindi si incontra il primo problema, la varianza del campione non converge. D'altra parte, il teorema della mappatura continua in combinazione con il teorema del limite centrale funzionale ci dàT

T

1T2t=1TXt2=t=1T1T(1Ts=1tUt)201M1s2ds
dove la convergenza è convergenza nella distribuzione, come .T

Allo stesso modo otteniamo

1

1T2t=1TYt201M2s2ds
e
1T2t=1TXtYt01M1sM2sds

Quindi finalmente per la correlazione campionaria della nostra camminata casuale otteniamo

ρ^01M1sM2sds01M1s2ds01M2s2ds
nella distribuzione come . T

Quindi, sebbene la correlazione sia ben definita, la correlazione del campione non converge verso di essa, come nel caso del processo stazionario. Invece converge in una certa variabile casuale.


1
La spiegazione matematica del punto di vista è ciò che stavo cercando. Mi dà qualcosa da contemplare ed esplorare ulteriormente. Grazie.
Milktrader,

1
Questa risposta sembra eludere la domanda originale: non stai semplicemente dicendo che sì, il calcolo della correlazione ha senso per i processi stazionari?
whuber

1
@whuber, stavo rispondendo alla domanda tenendo presente il commento, ma rileggo di nuovo la domanda e per quanto ho capito l'OP chiede informazioni sul calcolo della correlazione per i dati non stazionari. Il calcolo della correlazione per i processi fissi ha senso, tutta l'analisi macroeconometrica (VAR, VECM) si basa su questo.
mpiktas,

Proverò a chiarire la mia domanda con una risposta.
whuber

3
@whuber il mio allontanamento dalla risposta è che una correlazione basata su dati non stazionari produce una variabile casuale, che può essere utile o meno. La correlazione basata su dati stazionari converge in una costante. Questo potrebbe spiegare perché i trader siano attratti dalla "correlazione rolling x-day" perché il comportamento correlato è fugace e spurio. Se la "correlazione rolling x-day" è valida o utile è per un'altra domanda.
Milktrader,

13

... è il calcolo della correlazione i cui dati non stazionari è anche un valido calcolo statistico?

Lascia che sia una passeggiata casuale discreta. Scegli un numero positivo . Definire i processi e con , se , e in caso contrario ; e . In altre parole, inizia identico a ma ogni volta che sale sopra , cambia segno (altrimenti emula sotto tutti gli aspetti).h P V P ( 0 ) = 1 P ( t + 1 ) = - P ( t ) V ( t ) > h P ( t + 1 ) = P ( t ) V ( t ) = P ( t ) W ( t ) V W V h OWhPVP(0)=1P(t+1)=P(t)V(t)>hP(t+1)=P(t)V(t)=P(t)W(t)VWVhW

inserisci qui la descrizione dell'immagine

(In questa figura (per ) è blu e è rosso. Ci sono quattro interruttori nel segno.)W Vh=5WV

In effetti, per brevi periodi di tempo tende ad essere perfettamente correlato con o perfettamente correlato con esso; tuttavia, utilizzare una funzione di correlazione per descrivere la relazione tra e non sarebbe utile (una parola che forse cattura più appropriatamente il problema di "inaffidabile" o "nonsenso").W V WVWVW

Codice Mathematica per produrre la figura:

With[{h=5},
pv[{p_, v_}, w_] := With[{q=If[v > h, -p, p]}, {q, q w}];
w = Accumulate[RandomInteger[{-1,1}, 25 h^2]];
{p,v} = FoldList[pv, {1,0}, w] // Transpose;
ListPlot[{w,v}, Joined->True]]

è positivo che la tua risposta lo sottolinei ma non direi che il processo è correlato, direi che sono dipendenti. Questo è il punto. Il calcolo della correlazione è valido e qui dirà "nessuna correlazione" e sappiamo tutti che questo non significa "nessuna dipendenza".
Robin Girard,

1
@robin Questo è un buon punto, ma ho costruito questo esempio in modo specifico in modo che per periodi potenzialmente lunghi questi due processi siano perfettamente correlati. Il problema non riguarda la dipendenza rispetto alla correlazione, ma è intrinsecamente correlato a un fenomeno più sottile: che la relazione tra i processi cambia in periodi casuali. Questo, in poche parole, è esattamente ciò che può accadere nei mercati reali (o almeno dovremmo preoccuparci che ciò accada!).
whuber

@whubert sì, e questo è un ottimo esempio che mostra che ci sono processi che hanno una correlazione molto alta per periodi di tempo potenzialmente lunghi e che ancora non sono affatto correlati (ma altamente dipendenti) quando si considera la scala temporale più ampia.
Robin Girard,

2
@robin girard, penso che la chiave qui sia che per i processi non stazionari la correlazione teorica varia con il tempo, mentre per i processi stazionari la correlazione teorica rimane la stessa. Quindi, con la correlazione del campione che in pratica è un numero, è impossibile catturare la variazione delle correlazioni reali in caso di processi non stazionari.
mpiktas,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.