Probabilmente, questa è una domanda molto semplice, ma non riesco a trovare una risposta solida per questo. Spero qui, posso.
Attualmente sto leggendo articoli come preparazione per la mia tesi di master. Attualmente sto leggendo un documento che ricerca il rapporto tra tweet e caratteristiche del mercato azionario.
In una delle loro ipotesi, propongono che "l'aumento del volume dei tweet è associato ad un aumento del volume degli scambi".
Io li aspetterei, nelle correlazioni a coppie, di correlare tweetVolume
con tradingVolume
, ma invece hanno report utilizzando i versioni registrato: LN(tweetVolume)
e LN(tradingVolume)
.
Per la mia tesi, ho replicato questo pezzettino del loro articolo. Ho raccolto tweet su circa 100 aziende per oltre 6 mesi ( tweetVolume
) e volume di scambi di azioni nello stesso lasso di tempo. Se correlo le variabili assolute, trovo, r=.282, p.000
ma quando uso le verioni registrate, trovo r=.488, p=.000
.
Non capisco perché i ricercatori a volte usano versioni registrate delle loro variabili e perché la correlazione sembra molto più alta se lo fai. Qual è il ragionamento qui e perché è corretto utilizzare le variabili registrate?
Il vostro aiuto è molto apprezzato :-)