Regressione usuale vs. regressione quando le variabili sono differenziate


13

Sto solo cercando di capire quale sia la relazione tra una normale regressione multipla / semplice rispetto a una regressione multipla / semplice quando le variabili sono differenziate.

Ad esempio, sto analizzando la relazione tra il saldo dei depositi ( ) rispetto ai tassi di mercato ( ) Se una regressione lineare semplice, la correlazione è negativa e piuttosto significativa (intorno a -.74) Tuttavia, se prendo il registro e differenza della variabile dipendente e differenza della variabile indipendente, quindi la mia equazione è ora regredita con , le mie correlazioni e R ^ 2 non sono affatto significative ( ).YTRTdln(YT)dR(T)R2=.004

Mi stavo solo chiedendo se questo basso significasse qualcosa? Significa che il mio modello non è adatto o ignoro quando guardo i dati differenziati? So dai dati che esiste una correlazione significativa tra le due variabili originali, ma per il mio modello ho bisogno di guardare le variabili differenziate, quindi mi chiedo solo come procedere.R2R2

Risposte:


16

La versione semplice è che ogni due variabili che tendono a cambiare in una direzione nel tempo sembreranno correlate, indipendentemente dal fatto che ci sia o meno una connessione tra loro. Considera le seguenti variabili:

set.seed(1)
time = seq(from=1, to=100, by=1)
x  = .5 + .3*time +        rnorm(100)
y1 =  3 + .3*time +        rnorm(100)
y2 =  7 + .1*time + .8*x + rnorm(100)

x è solo una funzione del tempo, come lo è . è una funzione sia di tempo che di . Il punto è riconoscere dal codice che c'è davvero una relazione tra e , e che non v'è alcuna relazione tra ey1y2xxy2xy1 . Ora guarda la figura seguente, tutte e tre le linee sembrano tremendamente simili, vero?

inserisci qui la descrizione dell'immagine

R2xy1R2xy2xy1xy2, quindi come possiamo differenziare il reale dal semplice aspetto? È qui che entra in gioco la differenziazione. Per una qualsiasi delle due variabili, poiché entrambe tendono ad aumentare nel tempo, questo non è molto informativo, ma dato che uno aumenta di un determinato importo, ci dice quanto sale l'altro? La differenza ci consente di rispondere a questa domanda. Nota le seguenti due figure, grafici a dispersione che ho creato dopo aver differenziato tutte e tre le variabili.

inserisci qui la descrizione dell'immagine

inserisci qui la descrizione dell'immagine

xy2R2=.43xy1R2=.07R2 è .004, direi che non esiste una relazione reale.

Alcuni altri punti: Nelle figure, sottolineo che si tratta di cambiamenti simultanei. Non c'è nulla di sbagliato in questo, e ne consegue dal modo in cui ho impostato il problema, ma di solito le persone sono interessate agli effetti in qualche momento. (Cioè, il cambiamento in una cosa ad un certo punto nel tempo porta a cambiare in qualcos'altro in seguito.) In secondo luogo, menzioni di prendere il registro di una delle tue serie. Prendendo il registro si passa semplicemente i dati dai livelli alle tariffe. E quindi, quando fai la differenza, stai osservando le variazioni dei tassi anziché le variazioni dei livelli. È molto comune, ma non ho incluso quell'elemento nella mia dimostrazione; è ortogonale ai problemi di cui ho discusso. Infine, voglio riconoscere che i dati delle serie temporali sono spesso più complicati di quanto la mia dimostrazione permetta.


10

@gung offre una bella risposta, ma voglio offrire alcuni avvertimenti a ciò che stai suggerendo.

La differenza viene principalmente utilizzata per combattere il problema delle radici delle unità, ad esempio quando il processo è AR (1) con un coefficiente di correlazione di 1. La differenza può essere utilizzata in modo efficace per rimuovere una tendenza temporale lineare quando il termine di errore è rumore bianco (in in particolare, non mostra alcuna correlazione seriale), come mostra @gung sopra. Ma se il termine di errore ha una correlazione seriale con un coefficiente di correlazione inferiore a 1 in valore assoluto, l'uso della differenziazione per rimuovere una tendenza temporale lineare produce errori con una struttura molto complicata. È difficile ottenere errori standard accurati e fare inferenze valide in questo caso.

Di conseguenza, è meglio testare prima una radice unitaria e, se rilevata, correggerla tramite la differenziazione. Quindi, controlla la tendenza temporale lineare. Risolvi questo problema negando. Senza fare quest'ultimo, sei aperto al problema del tipo di variabile omesso che @gung illustra bene.


1
+1 Questo è un bel complemento alla mia risposta. Ho cercato di mantenere la mia risposta semplice e intuitiva. Tuttavia, è certamente vero che ci sono più complessità di quelle che ho discusso e che possono essere molto importanti. Avrei dovuto riconoscerlo nel mio ultimo paragrafo. Grazie per avermi reso onesto.
gung - Ripristina Monica

1

Quando l'obiettivo è formare / identificare la relazione tra due o più serie, potrebbe essere necessario filtrare la variabile X stazionaria per trasformarla in rumore. Questo è un processo in due fasi, la differenziazione richiesta e la struttura ARMA. Per conservare l'obiettività ed evitare la distorsione delle specifiche del modello, non si deve assumere il filtro ma costruirlo piuttosto usando la natura autocorrelativa della serie X stazionaria. Quindi si prende la serie Y e si applicano tutti gli operatori di differenziazione necessari per renderla stazionaria e quindi applicare il filtro precedentemente sviluppato alla Y stazionaria. Questa procedura ha un solo e unico obiettivo e quello di identificare la relazione tra Y e X. Non si dovrebbe mai saltare alle conclusioni sugli operatori di differenziazione richiesti, il filtro ARMA e la relazione tra le variabili a meno che uno non sia un econometrico che conosce il modello prima di osservare i dati o se si parla direttamente con l'onnipotente. Un'attenta analisi relativa alla normalità del requisito di errori è necessaria per credere a qualsiasi test statistico che può essere calcolato. Il calcolo dei test F / test T è necessario ma non sufficiente. In sintesi, ti suggerisco di perseguire l'argomento "Come identificare un modello di funzione di trasferimento". Altri ed io abbiamo affrontato questo argomento diverse volte. Se lo desideri, puoi esaminare alcune delle risposte alle domande a cui è associato il tag "serie storiche". Come ha detto Yogi "Puoi osservare molto semplicemente leggendo / guardando". A volte risposte belle e semplici possono portarti fuori strada e risposte potenzialmente complicate / conservative come la mia potrebbero richiedere di sviluppare una migliore comprensione della modellazione dei dati delle serie temporali. Come è stato detto una volta "Toto, non siamo più in Kansas (ovvero dati trasversali)!"

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.