La correlazione di Pearson viene utilizzata per esaminare la correlazione tra le serie ... ma essendo le serie temporali la correlazione viene esaminata attraverso ritardi diversi: la funzione di correlazione incrociata .
La correlazione incrociata è influenzata dalla dipendenza all'interno della serie, quindi in molti casi la dipendenza all'interno della serie dovrebbe essere rimossa per prima. Quindi, per usare questa correlazione, piuttosto che appianare la serie, in realtà è più comune (perché è significativo) guardare la dipendenza tra i residui - la parte grezza che rimane dopo aver trovato un modello adatto per le variabili.
Probabilmente si desidera iniziare con alcune risorse di base sui modelli di serie storiche prima di approfondire il tentativo di capire se una correlazione di Pearson attraverso (presumibilmente) serie non stazionarie e livellate è interpretabile.
In particolare, probabilmente vorrai esaminare il fenomeno qui . [Nelle serie temporali questo a volte viene chiamato correlazione spuria , sebbene l'articolo di Wikipedia sulla correlazione spuria abbia una visione ristretta sull'uso del termine in un modo che sembrerebbe escludere questo uso del termine. Probabilmente troverai di più sui problemi discussi qui cercando invece una regressione spuria .]
[Modifica - il panorama di Wikipedia continua a cambiare; il precedente paragrafo. probabilmente dovrebbe essere rivisto per riflettere quello che c'è adesso.]
ad esempio vedere alcune discussioni
http://www.math.ku.dk/~sjo/papers/LisbonPaper.pdf (la citazione di apertura di Yule, in un documento presentato nel 1925 ma pubblicato l'anno successivo, riassume abbastanza bene il problema)
Christos Agiakloglou e Apostolos Tsimpanos, correlazioni spurie per processi AR fissi (1) http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.611.5055&rep=rep1&type=pdf (questo dimostra che puoi persino ottenere il problema tra le serie fisse; da qui la tendenza a prebiancare)
Il classico riferimento di Yule, (1926) [1] di cui sopra.
Puoi anche trovare utile la discussione qui , così come la discussione qui
-
L'uso della correlazione di Pearson in modo significativo tra le serie storiche è difficile e talvolta sorprendentemente sottile.
Ho cercato una correlazione spuria, ma non mi interessa se la mia serie A è la causa della mia serie B o viceversa. Voglio solo sapere se puoi imparare qualcosa sulla serie A osservando cosa sta facendo la serie B (o viceversa). In altre parole: hanno una correlazione.
Prendi nota del mio precedente commento sull'uso ristretto del termine correlazione spuria nell'articolo di Wikipedia.
Il punto sulla correlazione spuria è che le serie possono apparire correlate, ma la correlazione stessa non è significativa. Considera due persone che lanciano due monete distinte contando il numero di teste finora meno il numero di code fino al valore della loro serie.
(Quindi se la persona 1 lancia hanno 3-1 = 2 per il valore nella quarta fase, e la loro serie va )HTHH...1,0,1,2,...
Ovviamente non c'è alcun collegamento tra le due serie. Chiaramente nessuno dei due può dirti la prima cosa dell'altro!
Ma guarda il tipo di correlazioni che ottieni tra le coppie di monete:
Se non ti avessi detto cosa fossero, e avessi preso da solo una coppia di quelle serie, quelle sarebbero correlazioni impressionanti, no?
Ma sono tutti insignificanti . Assolutamente falso. Nessuna delle tre coppie è realmente più positivamente o negativamente correlata l'una con l'altra delle altre - è solo un rumore cumulativo . La falsità non riguarda solo la previsione, l'intera nozione di considerare l'associazione tra le serie senza tener conto della dipendenza all'interno delle serie è fuori luogo.
Tutto ciò che hai qui è la dipendenza all'interno della serie . Non esiste alcuna relazione tra serie effettive.
Una volta che hai affrontato correttamente il problema che rende queste serie auto-dipendenti - sono tutte integrate ( passeggiate casuali di Bernoulli ), quindi devi differenziarle - scompare l'associazione "apparente" (la più grande correlazione assoluta tra le serie incrociate delle tre è 0,048).
Ciò che ti dice è la verità: l'apparente associazione è una semplice illusione causata dalla dipendenza all'interno della serie.
La tua domanda si poneva "come usare correttamente la correlazione di Pearson con le serie temporali" - quindi ti preghiamo di capire: se esiste una dipendenza all'interno della serie e non la gestisci prima, non la userai correttamente.
Inoltre, il livellamento non ridurrà il problema della dipendenza seriale; al contrario, lo rende ancora peggio! Ecco le correlazioni dopo il livellamento (default loess smooth - of series vs index - eseguito in R):
coin1 coin2
coin2 0.9696378
coin3 -0.8829326 -0.7733559
Si sono tutti allontanati da 0. Non sono ancora nient'altro che rumore insignificante , sebbene ora sia un rumore smussato e cumulato. (Con il livellamento, riduciamo la variabilità delle serie che inseriamo nel calcolo della correlazione, quindi questo potrebbe essere il motivo per cui la correlazione aumenta.)
[1]: Yule, GU (1926) "Perché a volte riceviamo correlazioni senza senso tra le serie temporali?" J.Roy.Stat.Soc. , 89 , 1 , pagg. 1-63