Perché usare le variabili registrate?

Probabilmente, questa è una domanda molto semplice, ma non riesco a trovare una risposta solida per questo. Spero qui, posso.

Attualmente sto leggendo articoli come preparazione per la mia tesi di master. Attualmente sto leggendo un documento che ricerca il rapporto tra tweet e caratteristiche del mercato azionario.

In una delle loro ipotesi, propongono che "l'aumento del volume dei tweet è associato ad un aumento del volume degli scambi".

Io li aspetterei, nelle correlazioni a coppie, di correlare tweetVolumecon tradingVolume, ma invece hanno report utilizzando i versioni registrato: LN(tweetVolume)e LN(tradingVolume).

Per la mia tesi, ho replicato questo pezzettino del loro articolo. Ho raccolto tweet su circa 100 aziende per oltre 6 mesi ( tweetVolume) e volume di scambi di azioni nello stesso lasso di tempo. Se correlo le variabili assolute, trovo, r=.282, p.000ma quando uso le verioni registrate, trovo r=.488, p=.000.

Non capisco perché i ricercatori a volte usano versioni registrate delle loro variabili e perché la correlazione sembra molto più alta se lo fai. Qual è il ragionamento qui e perché è corretto utilizzare le variabili registrate?

Il vostro aiuto è molto apprezzato :-)

correlation data-transformation logarithm

— Pr0no
fonte

Se vedi i thread correlati in basso a destra nella pagina, l'uso dei logaritmi è stato trattato alcune volte in precedenza. In particolare, vedere In regressione lineare, quando è appropriato utilizzare il registro di una variabile indipendente anziché i valori effettivi? .

— Andy W

I motivi per utilizzare le variabili registrate rientrano in due categorie: statistiche e sostanziali.

Statisticamente, se le tue variabili sono inclinate a destra (ovvero hanno una coda lunga nella fascia alta), una misura come correlazione o regressione può essere influenzata molto da uno o pochi casi nella fascia alta su uno o entrambi variabili (valori anomali, punti di leva, punti influenti). La registrazione del registro può essere di aiuto riducendo o eliminando l'inclinazione.

Sostanzialmente, alcuni concetti sono meglio pensati in termini di rapporti piuttosto che di differenze. Prendi le due misure del volume che stai discutendo. Ora confronta due società: una una piccola società commerciale sul NASDAQ di cui poche persone hanno sentito parlare, l'altra una mega-corporazione. Il primo riceverà pochissimi tweet al giorno. Quest'ultimo ne otterrà molti; allo stesso modo per il volume degli scambi. Supponiamo (solo per selezionare i numeri) che la società A riceva in genere 100 tweet al giorno e quest'ultima ottenga 100.000.

Se i tweet dell'azienda A passano da 100 a 500 (una differenza di 400, un rapporto di 5) questa è una grande notizia - qualcosa deve succedere. Ma se la società B sale da 100.000 a 100.400 (una differenza di 400, un rapporto molto vicino a 1), a nessuno importa. L'equivalente approssimativo sarebbe se andasse da 100.000 a 500.000.

— Peter Flom - Ripristina Monica
fonte

grazie per la tua rapida risposta. Altre due domande vengono dalla tua risposta. Innanzitutto, se ho 3 proprietà per un oggetto (volume di trading di azioni, rendimenti e volatilità) e prendo la versione registrata per uno di essi? Quello che dici per i tweet dell'azienda A e B, potrebbe anche contare per i loro rendimenti: se lo stock dell'azienda A sale da 1 a 1,50, i rendimenti sono (50%) 0,50. La società B ha bisogno di un aumento da 400 a 600 (200) per un ritorno% simile. E derivante da ciò: se i rendimenti sono negativi, LN (-0.50) ovviamente non funziona. È quindi consentito prendere -LN (0,50)?

— Pr0no,

Inoltre, se capisco correttamente, prendere la variabile registrata non è una scelta libera - deve essere argomentata da grafici di abilità (statisticamente)? E sostanzialmente è solo un ragionamento logico per fare il log che in realtà fornisce proff per farlo? In altre parole, ci sono delle regole empiriche qui, che definiscono tre limiti sopra i quali dovresti prendere la versione registrata o è una questione di interpretazione?

— Pr0no,

In questo caso non vuoi prendere i registri delle percentuali: prendere la percentuale fa quello che farebbe il registro. Cioè, rende le cose rapporti. Certamente puoi prendere il registro di alcune variabili e non di altre. Prendere il registro non richiede grafici di asimmetria, ma di solito le variabili che devono essere registrate sono inclinate a destra. Ma la cosa principale è la sostanza . Se non ha alcun senso sostanziale prendere il registro, allora non farlo. Utilizzare invece metodi statistici che funzionano con variabili distorte. SOSTANZA viene prima di tutto.

— Peter Flom - Ripristina Monica