Dati di serie temporali di previsione con variabili esterne


10

Attualmente sto lavorando a un progetto per fare previsioni sui dati di una serie temporale (dati mensili). Sto usando R per fare le previsioni. Ho 1 variabile dipendente (y) e 3 variabili indipendenti (x1, x2, x3). La variabile y ha 73 osservazioni, così come le altre 3 variabili (alos 73). Da gennaio 2009 a gennaio 2015. Ho verificato le correlazioni e il valore p, ed è tutto significativo metterlo in un modello. La mia domanda è: come posso fare una buona previsione usando tutte le variabili indipendenti? Non ho valori futuri per queste variabili. Diciamo che vorrei prevedere quale sia la mia variabile y in oltre 2 anni (nel 2017). Come posso fare questo?

Ho provato il seguente codice:

    model = arima(y, order(0,2,0), xreg = externaldata) 

Posso fare una previsione del valore y per 2 anni con questo codice?

Ho anche provato un codice di regressione:

    reg = lm(y ~ x1 + x2 + x3) 

Ma come posso dedicare del tempo a questo codice? Come posso prevedere quale sarà il mio valore y, diciamo 2 anni? Sono nuovo di statistiche e previsioni. Ho fatto alcune letture e cam sul valore di ritardo, ma come posso usare un valore di ritardo nel modello per fare previsioni?

In realtà la mia domanda generale è come posso prevedere i dati di una serie temporale con variabili esterne senza valore futuro?


Non usare mai la regressione con i dati delle serie storiche. Utilizzare un approccio modello di funzione di trasferimento.
Tom Reilly,

2
Salve signore, mi può dire di più su un modello di funzione di trasferimento? E perché non dovrei mai usare la regressione con i dati delle serie temporali? La maggior parte degli studi suggerisce di usare il regresso con le serie storiche.
SB,

Un modello di funzione di trasferimento è spiegato nel manuale di Box-Jenkins nel Capitolo 10. L'obiettivo è quello di costruire un modello per ogni causale (pre-sbiancamento) e quindi usare i residui per trovare correlazioni con Y (correlazione incrociata). Questo ti aiuterà a identificare quali variabili sono importanti e se ci sono relazioni di lead o lag. Potrebbe essere necessario ARIMA in questa equazione o denominatore sulle variabili X. Potresti anche avere valori anomali, variazioni di tendenza, livello, stagionalità, parametri e varianza.
Tom Reilly,

Potrebbe anche esserci una regressione presuppone che il tempo non sia importante. La regressione è stata usata da Galton per studiare Sweat Peas ... non è un problema di serie storiche. La funzione di trasferimento utilizza parti del processo per stimare il problema.
Tom Reilly,

Risposte:


11

Se si adatta un modello utilizzando variabili esterne e si desidera eseguire la previsione da questo modello, saranno necessari valori (previsti) futuri delle variabili esterne, chiari e semplici. Non c'è modo di aggirarlo.

Esistono ovviamente diversi modi per prevedere le variabili esplicative. È possibile utilizzare l'ultimo valore osservato (la previsione "camminata casuale ingenua") o la media complessiva. Puoi semplicemente impostarli a zero se questo è un valore utile per loro (ad esempio, eventi speciali accaduti in passato come un terremoto, che non prevedi di ricorrere). Oppure potresti adattare e prevedere un modello di serie temporale a queste stesse variabili esplicative, ad esempio, utilizzando auto.arima.

L'alternativa è di adattare un modello ai valori senza variabili esplicative, rimuovendo il parametro, quindi prevedere utilizzando questo modello. Un vantaggio è che questo può persino catturare regolarità nelle variabili esplicative. Ad esempio, le tue vendite di gelati potrebbero essere guidate dalla temperatura e non hai buone previsioni sulla temperatura con qualche mese di anticipo ... ma la temperatura è stagionale, quindi semplicemente adattando un modello senza temperatura si ottiene un modello stagionale e il tuo stagionale le previsioni potrebbero essere piuttosto buone anche se non includi il vero driver delle vendite.yyxregy

Raccomando questo manuale di previsioni online gratuito , in particolare questa sezione sulla regressione multipla (sfortunatamente, non c'è nulla su ARIMAX lì), così come il post sul blog di Rob Hyndman "Il pasticcio del modello ARIMAX" .


1

Come ha detto Yogi Berra, "È difficile fare previsioni, soprattutto sul futuro".

Molti moduli software stat genereranno previsioni basate sul flusso univariato di serie temporali in assenza di informazioni future, ad esempio Proc Forecast in SAS o qualsiasi numero di moduli ARIMA disponibili. Queste previsioni sono proiezioni basate sul comportamento storico dei tuoi dati.

Ci comunichi che i tuoi dati sono mensili, ma non dirci quanti periodi hai a disposizione. Un altro approccio è di riportare i tre IV indietro di 24 mesi rispetto al DV in modo che il periodo che prevedono sia t + 24. Ciò presuppone che si disponga di una data sufficiente sia per inizializzare il modello sia per calibrare la stagionalità pertinente, a seconda dei casi.


Ho modificato il mio testo. Puoi rispondere alle mie domande ora?
SB,

Dato che hai una quantità sufficiente di informazioni, ci sono molti modi per integrare il tempo nel tuo modello. È possibile creare variabili fittizie per gli anni (ad esempio, 2009, 2010, ecc.), Per i trimestri, per ogni mese nelle serie temporali o, come approccio alla contabilità per stagionalità, ogni mese dell'anno. Un altro approccio sarebbe quello di trattare il tempo come una funzione di tendenza numerica, ad esempio lineare (come in un conteggio dei periodi che iniziano con gennaio 2009 = 1, febbraio = 2, ecc.) O qualsiasi numero di tendenze polinomiali basate sulla tendenza lineare, ad es. quadratico (trend lineare al quadrato) e verso l'alto. Cos'altro vuoi sapere?
Mike Hunter,

Ma il tempo non può essere una variabile indipendente giusto? Quindi, come posso prevedere la mia variabile y usando le 3 variabili esterne? Sto facendo fatica a selezionare un modello che farà la previsione?
SB,

Come indicato nel commento precedente, il tempo sarebbe una variabile indipendente. Penso che tu abbia bisogno di leggere su regressione, econometria e letteratura sulle serie storiche. Ci sono molti thread su questo sito che rispondono a queste domande e suggeriscono articoli, libri, ecc. Sfoglia il lato destro di questa pagina web per ulteriori discussioni relative alle tue preoccupazioni.
Mike Hunter,

Ho letto molto e non sono riuscito a trovare una soluzione. Questo è il motivo per cui ho posto questa domanda qui. Puoi nominare alcuni thread di alcune pubblicazioni che posso usare? O la pagina web giusta?
SB,

1

A mio avviso, hai tre opzioni:

  1. Utilizzare una previsione pubblicata per le variabili indipendenti o trovare un modello per prevederle. Ad esempio, il censimento avrà previsto dati sulla popolazione.
  2. Usando il set di dati che hai, regredisci nel tempo ciascuna delle tue variabili indipendenti e poi usa questi risultati come modello di previsione per le variabili indipendenti
  3. Rilascia le variabili indipendenti e modella semplicemente la tua variabile dipendente in funzione del tempo e dei valori ritardati di y.

Ogni approccio ha i suoi punti di forza e di debolezza, quindi il meglio dipende dal contesto specifico.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.