Correlazione tra due variabili di dimensioni disuguali


9

In un problema su cui sto lavorando, ho due variabili casuali, X e Y. Devo capire quanto siano strettamente correlate tra loro, ma hanno dimensioni diverse. Il rango dello spazio di riga di X è 4350 e il rango dello spazio di riga di Y è sostanzialmente più grande, nelle decine di migliaia. Sia X che Y hanno lo stesso numero di colonne.

Ho bisogno di una misura di correlazione tra le due variabili e la r di Pearson richiede che X e Y abbiano la stessa dimensione (almeno R richiede che le due rv siano).

Ho qualche speranza di fare una correlazione tra questi due, o dovrei trovare un modo di eliminare le osservazioni da Y?

 EDIT

Aggiunta di informazioni dai commenti, che dovrebbero essere nella domanda.

Suppongo di aver dimenticato di menzionarlo. X e Y sono prezzi delle azioni. La società X è stata pubblica per un periodo di tempo molto più breve di Y. Volevo dire quanto sono correlati i prezzi di X e Y. Potrei sicuramente ottenere una correlazione per il periodo di tempo in cui X e Y esistono entrambi. Volevo sapere se conoscere i prezzi delle azioni per diversi anni in più di Y che X non esistesse mi ha fornito ulteriori informazioni.


2
Non sembra che tu abbia osservazioni (o "casi") su cui osservi sia una realizzazione X che una Y. Come scopri quale X è associata a quale Y?
Stephan Kolassa,

1
Suppongo di aver dimenticato di menzionarlo. X e Y sono prezzi delle azioni. La società X è stata pubblica per un periodo di tempo molto più breve di Y. Volevo dire quanto sono correlati i prezzi di X e Y. Potrei sicuramente ottenere una correlazione per il periodo di tempo in cui X e Y esistono entrambi. Volevo sapere se conoscere i prezzi delle azioni per diversi anni in più di Y che X non esistesse mi ha fornito ulteriori informazioni.
Christopher Aden,

2
@Christopher Consiglierei di aggiornare la tua domanda per riflettere il tuo commento sopra. Inoltre, affinché la correlazione sia significativa, sono necessarie più che dimensioni uguali; le misurazioni effettive devono provenire dagli stessi casi, che nel tuo caso presumibilmente sono gli stessi punti temporali.
Jeromy Anglim,

2
Secondo il commento di Jeromy sull'aggiornamento della domanda ...
Stephan Kolassa,

Un'altra domanda: dici che X e Y hanno lo stesso numero di colonne. Sarebbe uno ciascuno? O hai più serie sia per X che per Y (prezzi in diverse borse o alcune di queste)?
Stephan Kolassa,

Risposte:


10

Nessuna quantità di imputazione, analisi di serie temporali, modelli GARCH, interpolazione, estrapolazione o altri algoritmi elaborati faranno qualsiasi cosa per creare informazioni dove non esiste (sebbene possano creare quell'illusione ;-). La storia del prezzo di Y prima che X diventasse pubblica è inutile per valutare la loro successiva correlazione.

A volte (spesso propedeutici a una IPO) gli analisti utilizzano informazioni contabili interne (o registri delle transazioni di titoli privati) per ricostruire retrospettivamente i prezzi ipotetici per il titolo X prima che diventasse pubblico. Concepibilmente tali informazioni potrebbero essere utilizzate per migliorare le stime di correlazione, ma data la natura estremamente provvisoria di tali backcast, dubito che lo sforzo sarebbe di alcun aiuto tranne inizialmente quando ci sono solo pochi giorni o settimane di prezzi per X disponibili.


Chiarimento: non ho menzionato GARCH per affrontare il problema dei dati mancanti (che ovviamente non avrebbe senso), ma per migliorare un semplice calcolo della correlazione tra le serie temporali in momenti in cui entrambi esistono.
Stephan Kolassa,

@Stephan: OK. L'ho menzionato principalmente per dimostrare che non ti stavo ignorando!
whuber

1
Grazie whuber. Questo è in linea con quello che stavo cercando. Non penso che il backcasting sarà di grande utilità (o fattibilità) per aggiungere un paio di settimane extra di X quando l'intervallo di tempo reciproco tra X e Y è già di circa 16 anni.
Christopher Aden,

2
@Christopher: !! Con 16 anni (di chiusure giornaliere?) Hai abbastanza dati non solo per trovare una correlazione, ma anche per esplorare come è cambiata nel tempo. (Questo credo sia lo spirito della risposta di @Stephan Kolassa.)
whuber

Sono d'accordo. L'uso delle tecniche per capire quali valori X avrebbe preso prima della sua IPO sembra soggetto a errori. Potrei anche mettere in dubbio la rilevanza dei dati che hanno 16 anni per prevedere le tendenze moderne.
Christopher Aden,

10

Quindi il problema è uno dei dati mancanti (non tutti Y hanno una X corrispondente, dove la corrispondenza è resa operativa tramite punti temporali). Non penso che qui ci sia molto da fare oltre a buttare via la Y per la quale non si ha una X e calcolare la correlazione sulle coppie intere.

Potresti voler leggere le serie temporali finanziarie, anche se non ho un buon riferimento a questo punto (idee, qualcuno?). I prezzi delle azioni presentano spesso volatilità variabili nel tempo, che possono essere modellate, ad esempio, da GARCH . È ipotizzabile che le tue due serie storiche X e Y mostrino correlazioni positive durante periodi di bassa volatilità (quando l'economia cresce, tutti i prezzi delle azioni tendono ad aumentare), ma correlazioni negative quando la volatilità complessiva è elevata (l'11 settembre, le compagnie aeree hanno accumulato il denaro è fuggito per investimenti più sicuri). Quindi il solo calcolo di una correlazione complessiva potrebbe dipendere troppo dal periodo di osservazione.

AGGIORNAMENTO: Penso che potresti voler guardare i modelli VAR (vector autoregressive) .


Per i riferimenti di serie temporali finanziari di base, puoi vedere la mia risposta qui: stats.stackexchange.com/questions/328/… . Il testo di Tsay è uno dei più popolari.
Shane,

2

@Jeromy Anglim lo ha specificato correttamente. Avere le informazioni extra quando esisteva solo una delle serie temporali non fornirebbe alcun valore qui. E in linea di principio, i dati dovrebbero essere campionati allo stesso tempo affinché siano significativi usando le misure di correlazione convenzionali.

Come problema più generale, aggiungerei che esistono tecniche per gestire i dati delle serie temporali con spaziatura irregolare. È possibile cercare "correlazione di serie temporali con spaziatura irregolare". Alcuni dei recenti lavori sono stati condotti su "Volatilità e correlazione realizzate" (Andersen, Bollerslev, Diebold e Labys 1999) utilizzando dati ad alta frequenza.


1

Date le informazioni extra nei tuoi commenti, consiglierei di esaminare due correlazioni. Il primo sarebbero i periodi di tempo comuni in cui le compagnie erano entrambe intorno. Quindi, se uno era circa 2 anni prima, avresti semplicemente lasciato cadere quei dati e guardato il resto. Il secondo sarebbero i periodi di tempo relativi. Nel secondo non stai correlando il tempo effettivo ma il tempo misurato da quando la società è diventata pubblica.

Il primo sarebbe fortemente influenzato dalle forze economiche generali condivise nello stesso periodo di tempo. Quest'ultimo sarebbe influenzato dalle proprietà condivise dalle aziende mentre cambiano dopo l'IPO.


0

Un altro modo per risolvere un problema del genere è imputare i dati mancanti per le serie più brevi utilizzando un modello di serie temporali che può o non ha senso in un particolare contesto.

Nel tuo contesto, imputare i prezzi delle azioni nel passato significherebbe che stai ponendo la seguente domanda controfattuale: quale sarebbe il prezzo delle azioni per la società X se fosse stato reso pubblico n anni fa anziché quando è diventato pubblico? Tale imputazione dei dati potrebbe potenzialmente essere effettuata prendendo in considerazione i prezzi delle azioni delle società collegate, le tendenze generali del mercato ecc. Tuttavia, tale analisi potrebbe non avere senso o potrebbe non essere necessaria alla luce degli obiettivi del progetto.


0

Beh, molto dipende dalle ipotesi che fai. Se si presume che i dati siano fissi, più dati per la serie uno forniranno una stima migliore della sua volatilità. Questa stima può essere utilizzata per migliorare la stima della correlazione. Quindi la seguente dichiarazione non è corretta:

"La storia del prezzo di Y prima che X diventasse pubblica è inutile per valutare la loro successiva correlazione"


Ho pensato a questo. In teoria può funzionare, ma sarà molto poco probabile, quindi è meglio evitare.
kjetil b halvorsen,

-1

Sembra un problema per un algoritmo di apprendimento automatico. Pertanto, proverei a capire una serie di funzioni che descrivono un certo aspetto della tendenza e mi allenano su questo. L'intera teoria dell'apprendimento automatico è un po 'complessa per questa casella di risposta, ma sarebbe utile che tu la leggessi.

Ma onestamente, penso che esista già là fuori. Dove si possono fare soldi, le persone ci pensano.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.