Timeseries volume correlato


12

Considera il seguente grafico:

twitter e volume degli scambi

La linea rossa (asse sinistro) descrive il volume degli scambi di un determinato titolo. La linea blu (asse destro) descrive il volume del messaggio twitter per quello stock. Ad esempio, il 9 maggio (05-09) sono stati realizzati circa 1.100 milioni di transazioni e 4.000 tweet.

Vorrei calcolare se esiste una correlazione tra i tempi, nello stesso giorno o con un ritardo, ad esempio: il volume del tweet è correlato al volume degli scambi il giorno dopo. Sto leggendo molti articoli che hanno effettuato tale analisi, ad esempio Correlating Financial Time Series with Micro-Blogging Activity , ma non descrivono come tale analisi venga effettuata in termini pratici. Quanto segue è dichiarato nell'articolo:

inserisci qui la descrizione dell'immagine

Tuttavia, ho pochissima esperienza con l'analisi statistica e non so come eseguirlo sulla serie che ho. Uso SPSS (noto anche come PASW) e la mia domanda è: quali sono i passi da compiere per effettuare tale analisi dal punto in cui ho un file di dati sottostante l'immagine sopra? Tale test è una funzione predefinita (e come si chiama) e / o come potrei eseguirla altrimenti?

Qualsiasi aiuto sarebbe molto apprezzato :-)


1
Puoi calcolarli ... non puoi confrontarli con i valori critici a meno che le due serie non siano normali bi-
variate

Ho incollato i dati grezzi qui: pastebin.com/tZajRae9 C'è un modo per dire se le serie sono normali bi-variabile? Gradirei davvero il tuo commento.
Pr0no,

Dopo aver rilevato gli spostamenti di valori anomali / di livello in ciascuna serie, le serie regolate risultanti hanno mostrato un modello AR (1). Dopo aver incorporato non solo la regolazione dello spostamento di livello anomalo / livello E l'AR (1) identificato empiricamente, entrambe le serie di rumore erano prive di auto-correlazione (all'interno della struttura). Una correlazione incrociata di queste due serie surrogate non ha indicato alcuna correlazione incrociata sostanziale (tra struttura), quindi il numero di tweet non sembra aiutare la previsione del volume.
IrishStat,

Risposte:


6

Due controlli per la normalità bivariata controllo tre cose:

  1. controlla se la prima serie di osservazioni è marginalmente normale,
  2. controlla se la seconda serie di osservazioni è marginalmente normale,
  3. regredire l'uno sull'altro e verificare se i residui sono normali.

Per verificare la normalità in ciascuna di queste fasi, utilizzare i normali grafici qq oppure è possibile utilizzare qualsiasi test di ipotesi sulla normalità.

Oppure, in alternativa, è possibile verificare se ogni possibile combinazione lineare (coefficienti reali) delle due serie è marginalmente normale. Sarebbe probabilmente difficile, però.

Modifica: (6 anni dopo) terrò quanto sopra per i posteri, ma nota che ho una risposta più recente a una domanda simile qui .


Ho seguito i passaggi 1 e 2 e ho escogitato i seguenti grafici a scatola: i.imgur.com/SDOTE.png Ad eccezione delle 3-5 osservazioni anomale , sembrano leggermente normali. Tuttavia, il Sig. il valore per il test Shapiro-Wilk è 0.000, il che indicherebbe una deviazione significativa dalla normalità. Con gli outlier rimossi, Shapiro Wilk Sig. è 0,201 per i tweet e 0,004 per le negoziazioni. Questo indica che non è possibile alcuna correlazione? Inoltre, questa è una serie temporale: eliminare i valori anomali significa eliminare i giorni entro i tempi ricercati. È una pratica accettata?
Pr0no

Ho anche creato un grafico in pp per il passaggio 3. O almeno, nella mia interpretazione questo è ciò di cui ho bisogno (una regressione lineare con un normale diagramma di probabilità): i.imgur.com/EZ3Ic.png Qualche commento?
Pr0no

Le distribuzioni marginali non sembrano normali. C'è una piccola sezione sull'inferenza sul link della pagina di Wikipedia . Rimozione di valori anomali non è generalmente una buona idea. Forse avviare un intervallo di confidenza.
Taylor,

1
La domanda riguarda la correlazione, ma la risposta riguarda la normalità. La risposta viene votata più volte e accettata. Cosa mi sto perdendo qui? ..
Richard Hardy,

Una distribuzione normale bivariata è il modello più semplice che motiva / giustifica l'utilizzo della correlazione di Pearson.
Taylor,

11

Il coefficiente di correlazione tra serie storiche è inutile. Vedere COEFFICIENTE DI CORRELAZIONE - Valori critici per il significato del test . Questo è stato sottolineato per la prima volta da U. Yule nel 1926 Yule, GU, 1926, "Perché a volte otteniamo correlazioni senza senso tra le serie temporali? Uno studio nel campionamento e la natura delle serie temporali", Journal of the Royal Statistical Society 89, 1 –64 . Potresti voler google "perché otteniamo una correlazione senza senso" per ulteriori informazioni.

La ragione di ciò sono i test per la normalità articolare richiesta correlazione. La normalità congiunta richiede che ogni serie sia normale. La normalità richiede indipendenza. Per esaminare la relazione tra le serie storiche, si prega di rivedere l'identificazione della funzione di trasferimento in qualsiasi libro di serie storiche come Analisi delle serie storiche: metodi univariati e multivariati, di William WS Wei, David P. Reilly .

Risposta alla sfida

In termini di una risposta alla tua sfida. È noto, da alcuni ( Yule, GU, 1926 ) che la correlazione di due serie temporali può essere imperfetta, in particolare se entrambe le serie sono influenzate da impulsi / cambiamenti di livello / impulsi stagionali e / o tendenze dell'ora locale. Stando così le cose, prenderei ciascuna delle serie SEPARATAMENTE e identificerei la struttura ARIMA e qualsiasi impulso / spostamento di livello / impulso stagionale e / o andamento dell'ora locale che potrebbe essere applicato e creare un processo di errore.

Con due processi di errore chiari, uno per ciascuna delle due serie originali, calcolerei la correlazione incrociata che potrebbe quindi essere utilizzata per misurare il grado di associazione sopra e oltre la struttura auto-correlativa all'interno di ciascuna serie. Questa soluzione è appropriatamente chiamata il doppio approccio pre-sbiancamento.

Vedere:


Grazie per la tua risposta. Ma allora stai dicendo che per definizione, ao il documento a cui mi riferivo, non ha valore? In secondo luogo, ciò significa che per definizione due serie non possono mai essere correlate dove la correlazione ha significato?
Pr0no,

3
La correlazione può essere calcolata in quanto semplice aritmetica. Ciò che non può essere calcolato (facilmente) è la probabilità che la correlazione sia statisticamente significativa. Ripensa alla prima volta in cui ti è stato presentato il coefficiente di correlazione. È stato nel contesto di N campioni indipendenti in cui sono stati calcolati due caratteristiche / valori per ciascuno dei N campioni indipendenti e la densità articolare era normale bivariata.
IrishStat,

1
Perché richiede una normalità congiunta e non solo la stessa distribuzione (simmetrica?)? cioè non funzionerebbe anche l'uniformità comune?
naught101

1
@ NAUGHT101. I valori critici per il coefficiente di correlazione sono disponibili sotto l'ipotesi di normalità articolare e indefiniti altrimenti.
IrishStat,

@IrishStat Grazie per la risposta modificata. È apprezzato. Per i test di normalità, consultare i.imgur.com/SDOTE.png per i grafici qq delle variabili separate. Dopo che gli outlier sono stati rimossi, un grafico in pp, da quello che ho capito che misura la normalità comune, appare così i.imgur.com/EZ3Ic.png Qualche commento?
Pr0no,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.