Come utilizzare correttamente la correlazione di Pearson con le serie temporali

Ho 2 serie temporali (entrambe fluide) che vorrei mettere in correlazione incrociata per vedere quanto sono correlate.

Intendo utilizzare il coefficiente di correlazione di Pearson. È appropriato?

La mia seconda domanda è che posso scegliere di campionare le 2 serie storiche nel modo che preferisco. cioè posso scegliere quanti punti dati ci saranno. Questo influenzerà il coefficiente di correlazione che viene prodotto? Devo rendere conto di questo?

A scopo illustrativo

option(i)

[1,    4,    7,    10] & [6,    9,    6,    9,    6]

option(ii)

[1,2,3,4,5,6,7,8,9,10] & [6,7,8,9,8,7,6,7,8,9,8,7,6]

— user1551817
fonte

Qual è la natura delle serie storiche? Sono passeggiate casuali? Stazionario? Serie economiche?

— Aksakal,

La correlazione di Pearson viene utilizzata per esaminare la correlazione tra le serie ... ma essendo le serie temporali la correlazione viene esaminata attraverso ritardi diversi: la funzione di correlazione incrociata .

La correlazione incrociata è influenzata dalla dipendenza all'interno della serie, quindi in molti casi la dipendenza all'interno della serie dovrebbe essere rimossa per prima. Quindi, per usare questa correlazione, piuttosto che appianare la serie, in realtà è più comune (perché è significativo) guardare la dipendenza tra i residui - la parte grezza che rimane dopo aver trovato un modello adatto per le variabili.

Probabilmente si desidera iniziare con alcune risorse di base sui modelli di serie storiche prima di approfondire il tentativo di capire se una correlazione di Pearson attraverso (presumibilmente) serie non stazionarie e livellate è interpretabile.

In particolare, probabilmente vorrai esaminare il fenomeno qui . [Nelle serie temporali questo a volte viene chiamato correlazione spuria , sebbene l'articolo di Wikipedia sulla correlazione spuria abbia una visione ristretta sull'uso del termine in un modo che sembrerebbe escludere questo uso del termine. Probabilmente troverai di più sui problemi discussi qui cercando invece una regressione spuria .]

[Modifica - il panorama di Wikipedia continua a cambiare; il precedente paragrafo. probabilmente dovrebbe essere rivisto per riflettere quello che c'è adesso.]

ad esempio vedere alcune discussioni

http://www.math.ku.dk/~sjo/papers/LisbonPaper.pdf (la citazione di apertura di Yule, in un documento presentato nel 1925 ma pubblicato l'anno successivo, riassume abbastanza bene il problema)
Christos Agiakloglou e Apostolos Tsimpanos, correlazioni spurie per processi AR fissi (1) http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.611.5055&rep=rep1&type=pdf (questo dimostra che puoi persino ottenere il problema tra le serie fisse; da qui la tendenza a prebiancare)
Il classico riferimento di Yule, (1926) [1] di cui sopra.

Puoi anche trovare utile la discussione qui , così come la discussione qui

L'uso della correlazione di Pearson in modo significativo tra le serie storiche è difficile e talvolta sorprendentemente sottile.

Ho cercato una correlazione spuria, ma non mi interessa se la mia serie A è la causa della mia serie B o viceversa. Voglio solo sapere se puoi imparare qualcosa sulla serie A osservando cosa sta facendo la serie B (o viceversa). In altre parole: hanno una correlazione.

Prendi nota del mio precedente commento sull'uso ristretto del termine correlazione spuria nell'articolo di Wikipedia.

Il punto sulla correlazione spuria è che le serie possono apparire correlate, ma la correlazione stessa non è significativa. Considera due persone che lanciano due monete distinte contando il numero di teste finora meno il numero di code fino al valore della loro serie.

(Quindi se la persona 1 lancia hanno 3-1 = 2 per il valore nella quarta fase, e la loro serie va ) $\text{HTHH...}$ $1, 0, 1, 2,...$

Ovviamente non c'è alcun collegamento tra le due serie. Chiaramente nessuno dei due può dirti la prima cosa dell'altro!

Ma guarda il tipo di correlazioni che ottieni tra le coppie di monete:

inserisci qui la descrizione dell'immagine

Se non ti avessi detto cosa fossero, e avessi preso da solo una coppia di quelle serie, quelle sarebbero correlazioni impressionanti, no?

Ma sono tutti insignificanti . Assolutamente falso. Nessuna delle tre coppie è realmente più positivamente o negativamente correlata l'una con l'altra delle altre - è solo un rumore cumulativo . La falsità non riguarda solo la previsione, l'intera nozione di considerare l'associazione tra le serie senza tener conto della dipendenza all'interno delle serie è fuori luogo.

Tutto ciò che hai qui è la dipendenza all'interno della serie . Non esiste alcuna relazione tra serie effettive.

Una volta che hai affrontato correttamente il problema che rende queste serie auto-dipendenti - sono tutte integrate ( passeggiate casuali di Bernoulli ), quindi devi differenziarle - scompare l'associazione "apparente" (la più grande correlazione assoluta tra le serie incrociate delle tre è 0,048).

Ciò che ti dice è la verità: l'apparente associazione è una semplice illusione causata dalla dipendenza all'interno della serie.

La tua domanda si poneva "come usare correttamente la correlazione di Pearson con le serie temporali" - quindi ti preghiamo di capire: se esiste una dipendenza all'interno della serie e non la gestisci prima, non la userai correttamente.

Inoltre, il livellamento non ridurrà il problema della dipendenza seriale; al contrario, lo rende ancora peggio! Ecco le correlazioni dopo il livellamento (default loess smooth - of series vs index - eseguito in R):

            coin1      coin2     
coin2   0.9696378 
coin3  -0.8829326 -0.7733559

Si sono tutti allontanati da 0. Non sono ancora nient'altro che rumore insignificante , sebbene ora sia un rumore smussato e cumulato. (Con il livellamento, riduciamo la variabilità delle serie che inseriamo nel calcolo della correlazione, quindi questo potrebbe essere il motivo per cui la correlazione aumenta.)

[1]: Yule, GU (1926) "Perché a volte riceviamo correlazioni senza senso tra le serie temporali?" J.Roy.Stat.Soc. , 89 , 1 , pagg. 1-63

— Glen_b
fonte

Grazie per l'ottima risposta. Ho cercato una correlazione spuria, ma non mi interessa se la mia serie A è la causa della mia serie B o viceversa. Voglio solo sapere se puoi imparare qualcosa sulla serie A osservando cosa sta facendo la serie B (o viceversa). In altre parole: hanno una correlazione.

— user1551817

Si prega di vedere la mia risposta aggiornata.

— Glen_b,

"..quindi devi differenziarli .." cosa significa esattamente? Forse differenziandoli? ..

— Georgios Pligoropoulos,

Differenze: consultare Wikipedia qui o questa sezione del libro Previsioni, principi e prassi . Alla tua domanda successiva, il resto del paragrafo che citi lo dice esplicitamente. (Non è l'unica possibilità, tuttavia, solo per descrivere una cosa ragionevolmente comune che viene fatta)

— Glen_b

Ho individuato quella che sembra essere un'altra versione del documento e ho aggiunto titolo e autori

— Glen_b,

Per completare la risposta di Glen_b e il suo esempio su passeggiate casuali, se vuoi davvero usare la correlazione di Pearson su questo tipo di serie temporali , dovresti prima differenziarle, quindi elaborare il coefficiente di correlazione sugli incrementi ( ) che sono (nel caso di passeggiate casuali) indipendenti e distribuiti in modo identico. Ti suggerisco di usare la correlazione di Spearman o quella di Kendall, poiché sono più robuste del coefficiente di Pearson. Pearson misura la dipendenza lineare mentre Spearman e Kendall sono invarianti da trasformazioni monotone delle variabili. $(S_t)_{1 \leq t \leq T}$ $X_t = S_t - S_{t-1}$

Inoltre, immagina che due serie storiche siano fortemente dipendenti, diciamo che si muovono insieme e scendono insieme, ma una subisce variazioni a volte forti e l'altra con variazioni sempre lievi, la tua correlazione di Pearson sarà piuttosto bassa a differenza di quelle di Spearman e Kendall (che sono stime migliori della dipendenza tra le serie temporali).

Per un trattamento approfondito su questo e una migliore comprensione della dipendenza, è possibile esaminare la teoria di Copula e un'applicazione per le serie temporali .

— mic
fonte

I dati delle serie temporali di solito dipendono dal tempo. La correlazione di Pearson, tuttavia, è appropriata per dati indipendenti. Questo problema è simile alla cosiddetta regressione spuria. È probabile che il coefficiente sia altamente significativo, ma ciò deriva solo dall'andamento temporale dei dati che influenza entrambe le serie. Consiglio di modellare i dati e quindi provare a vedere se la modellazione produce risultati simili per entrambe le serie. L'uso del coefficiente di correlazione di Pearson, tuttavia, molto probabilmente darà risultati fuorvianti per l'interpretazione della struttura di dipendenza.

— tizio a caso
fonte