Qual è / sono la differenza "meccanica" tra la regressione lineare multipla con ritardi e serie temporali?


14

Sono laureato in economia e commercio e attualmente studia per un master in ingegneria dei dati. Mentre studiavo la regressione lineare (LR) e poi l'analisi delle serie storiche (TS), mi è venuta in mente una domanda. Perché creare un metodo completamente nuovo, ovvero serie temporali (ARIMA), invece di utilizzare la regressione lineare multipla e di aggiungere variabili ritardate (con l'ordine dei ritardi determinato utilizzando ACF e PACF)? Quindi l'insegnante mi ha suggerito di scrivere un piccolo saggio sull'argomento. Non sarei venuto a cercare aiuto a mani vuote, quindi ho fatto le mie ricerche sull'argomento.

Sapevo già che quando si utilizza LR, se le assunzioni di Gauss-Markov vengono violate, la regressione OLS non è corretta e ciò accade quando si utilizzano i dati delle serie temporali (autocorrelazione, ecc.). (un'altra domanda su questo, un'ipotesi GM è che le variabili indipendenti dovrebbero essere normalmente distribuite? o solo la variabile dipendente subordinata a quelle indipendenti?)

So anche che quando si utilizza una regressione del ritardo distribuita, che è ciò che penso di proporre qui, e usando OLS per stimare i parametri, la multicollinearità tra le variabili può (ovviamente) sorgere, quindi le stime sarebbero sbagliate.

In un post simile su TS e LR qui, @IrishStat ha detto:

... un modello di regressione è un caso particolare di un modello di funzione di trasferimento noto anche come modello di regressione dinamica o modello XARMAX. Il punto saliente è l'identificazione del modello in serie temporali, ovvero le differenze appropriate, i ritardi appropriati delle X, la struttura ARIMA appropriata, l'identificazione appropriata di strutture deterministiche non specificate come impulsi, spostamenti di livello, andamenti dell'ora locale, impulsi stagionali e incorporazione delle modifiche ai parametri o alla varianza dell'errore .

(Ho anche letto il suo articolo in Autobox su Box Jenkins vs LR.) Ma questo non risolve ancora la mia domanda (o almeno non chiarisce le diverse meccaniche di RL e TS per me).

È ovvio che anche con variabili ritardate sorgono problemi OLS e non è efficiente né corretto, ma quando si utilizza la massima probabilità, questi problemi persistono? Ho letto che ARIMA è stimato con la massima probabilità, quindi se l'LR con ritardi è stimato con ML anziché OLS, produce i coefficienti "corretti" (supponiamo che includiamo anche termini di errore ritardati, come un ordine MA q).

In breve, il problema è OLS? Il problema è stato risolto applicando ML?


4
Somiglianza inquietante lì con John Maynard Keynes.
Nick Cox,

Ciao @NickCox, sì, è il mio economista preferito, penso che fosse un uomo straordinario ed estremamente talentuoso in molti modi ... qualche aiuto sulla mia domanda? Quello che sto cercando di capire è perché il modello ritardato non funziona con la stima OLS e se stimerebbe correttamente con la stima della massima probabilità. Capisco che il modello migliore sia una funzione di trasferimento e al momento lo sto studiando. Ma la domanda teorica rimane ancora lì su OLS. Se non fosse presente alcuna autocorrelazione perché i ritardi lo eliminano (supponiamo anche che il multicoll. Non sia presente), funzionerebbe? o c'è ancora e sotto
Miguel M. il

@NickCox ... effetto / violazione di ipotesi gaussiane con cui OLS non può funzionare e che non può essere adattato con questo metodo? Come puoi vedere sono un po 'perso con questo, se è troppo lungo per rispondere, per favore, se puoi fornire una lezione che potrebbe illuminare, lo apprezzerei anche io
Miguel M.

1
In termini di meccanica, lasciatemi suggerire che il modello ARMA per l'utente ha suggerito (opportunamente differenziato) la variabile X riflette la non stazionarietà. Se quel filtro viene applicato a ENTRAMBE le serie opportunamente differenziate, la coppia risultante di serie può spesso essere studiata tramite procedure di correlazione incrociata producendo una struttura di ritardo suggerita (comprensione). Questa struttura di ritardo può quindi essere applicata alle serie originali opportunamente differenziate per fornire un suggerimento sulle serie non specificate / di sfondo (il processo di errore provvisorio). Questo processo di errore può quindi essere studiato per produrre l'ARMA appropriato.
IrishStat

@IrishStat quindi, per favore, lasciami riformulare quello che hai appena detto. Cerchiamo di avere la variabile dipendente Yt e la variabile indipendente Xt, differiamo sia Yt che Xt fino a quando non abbiamo stazionarietà in entrambi, e quindi possiamo applicare la funzione di correlazione incrociata per scoprire la struttura del ritardo. Successivamente regrediamo da Yt a Xt e studiamo il termine di errore. Se troviamo la struttura ARMA nel termine dell'errore, la applichiamo nel modello fino a quando non abbiamo il rumore bianco, giusto? Ma, la mia domanda è ancora, è l'ultimo modello montato tramite OLS? In caso contrario, perché no, e quale metodo utilizziamo?
Miguel M.,

Risposte:


9

Perché creare un metodo completamente nuovo, ovvero serie temporali (ARIMA), invece di utilizzare la regressione lineare multipla e di aggiungere variabili ritardate (con l'ordine dei ritardi determinato utilizzando ACF e PACF)?

Un punto immediato è che una regressione lineare funziona solo con le variabili osservate mentre ARIMA incorpora variabili non osservate nella parte della media mobile; quindi, ARIMA è più flessibile, o più generale, in un certo senso. Il modello AR può essere visto come un modello di regressione lineare e i suoi coefficienti possono essere stimati usando OLS; β^OLS=(XX)1XyXe quindi lo stimatore OLS è impossibile.

un'ipotesi GM è che le variabili indipendenti dovrebbero essere normalmente distribuite? o solo la variabile dipendente subordinata a quella indipendente?

L'ipotesi di normalità viene talvolta invocata per errori del modello, non per variabili indipendenti. Tuttavia, la normalità non è richiesta né per la coerenza e l'efficienza dello stimatore OLS né per il teorema di Gauss-Markov. L' articolo di Wikipedia sul teorema di Gauss-Markov afferma esplicitamente che "Gli errori non devono essere normali".

la multicollinearità tra le variabili può (ovviamente) sorgere, quindi le stime sarebbero errate.

Un alto grado di multicollinearità significa varianza gonfiata dello stimatore OLS. Tuttavia, lo stimatore OLS è ancora BLU fintanto che la multicollinearità non è perfetta. Quindi la tua affermazione non sembra corretta.

È ovvio che anche con variabili ritardate sorgono problemi OLS e non è efficiente né corretto, ma quando si utilizza la massima probabilità, questi problemi persistono?

Un modello AR può essere stimato utilizzando sia OLS che ML; entrambi questi metodi forniscono stimatori coerenti. I modelli MA e ARMA non possono essere stimati da OLS, quindi ML è la scelta principale; di nuovo, è coerente. L'altra proprietà interessante è l'efficienza, e qui non ne sono completamente sicuro (ma chiaramente le informazioni dovrebbero essere disponibili da qualche parte poiché la domanda è piuttosto standard). Vorrei provare a commentare la "correttezza", ma non sono sicuro di cosa tu voglia dire.


Ciao signor Hardy, grazie mille per la risposta. Per quanto riguarda i valori osservati rispetto a quelli non osservati, solo per riassumere. In ARIMA e nelle serie storiche (più specificamente XARIMAX), utilizziamo un approccio "dinamico", poiché utilizziamo l'errore di previsione e nella regressione lineare non li usiamo, ma potremmo comunque utilizzarli. Non capisco quindi il problema qui. O come dice @IrishStat, l'unica differenza è il percorso di identificazione e strategie di revisione del modello?
Miguel M.

E per quanto riguarda la stima, l'OLS (di nuovo) è corretto quando si includono errori ritardati nel modello? Per quanto riguarda la multicolinearità, intendevo dire che i coefficienti stimati potrebbero non essere corretti, poiché la loro stima ha una grande varianza. Con il metodo corretto intendevo dire se l'uso di OLS fornisce stime imparziali ed efficienti rispetto a ML quando si utilizzano i modelli ritardati proposti.
Miguel M.

@MiguelM, sto viaggiando ora, proverò a tornare più tardi.
Richard Hardy,

1
Per quanto riguarda "nella regressione lineare non li usiamo - ma potremmo comunque usarli": non osserviamo queste variabili, e quindi non possono essere utilizzate nel quadro della regressione lineare a causa della meccanica lì (come ho notato nella risposta, lo stimatore è impossibile); tuttavia, possono essere utilizzati nel framework ARIMA. Per quanto riguarda "OLS (di nuovo) è corretto quando si includono errori ritardati nel modello?", Sì, dovrebbe essere vero. Per quanto riguarda la "correttezza", se il modello è specificato correttamente e sia OLS che ML sono fattibili, entrambi dovrebbero funzionare bene. Sotto errata specificazione le cose tendono ad andare male.
Richard Hardy,

1
y=β0+β1x+εxy=β0+β1x+εx

5

Questa è un'ottima domanda. La vera differenza tra i modelli ARIMA e la regressione lineare multipla sta nella struttura dell'errore. È possibile manipolare le variabili indipendenti in un modello di regressione lineare multipla in modo che si adattino ai dati delle serie temporali, cosa che sta dicendo @IrishStat. Tuttavia, successivamente, è necessario incorporare gli errori ARIMA nel modello di regressione multipla per ottenere i coefficienti e i risultati dei test corretti. Un ottimo libro gratuito su questo è: https://www.otexts.org/fpp/9/1 . Ho collegato la sezione che discute sulla combinazione di ARIMA e modelli di regressione multipla.


1

Bella domanda, in realtà ho costruito entrambi nel mio lavoro di giorno come Data Scientist. I modelli di serie temporali sono facili da costruire (il pacchetto di previsione in R consente di crearne uno in meno in 5 secondi), lo stesso o più accurato dei modelli di regressione, ecc. Generalmente, si dovrebbero sempre costruire serie temporali, quindi regressione. Ci sono anche implicazioni filosofiche delle serie storiche, se puoi prevedere senza sapere nulla, allora cosa significa?

La mia opinione su Darlington. 1) "La regressione è molto più flessibile e potente, producendo modelli migliori. Questo punto è sviluppato in numerosi punti durante il lavoro."

No, al contrario. I modelli di regressione fanno molte più ipotesi rispetto ai modelli di serie storiche. Meno sono le ipotesi, più è probabile la capacità di resistere al terremoto (cambio di regime). Inoltre, i modelli di serie temporali rispondono più rapidamente ai cambiamenti improvvisi.

2) "La regressione è molto più facile da padroneggiare di ARIMA, almeno per coloro che hanno già familiarità con l'uso della regressione in altre aree." Questo è un ragionamento circolare.

3) "La regressione utilizza un algoritmo computazionale" chiuso "che è essenzialmente garantito per produrre risultati se possibile, mentre ARIMA e molti altri metodi usano algoritmi iterativi che spesso non riescono a raggiungere una soluzione. Ho visto spesso il metodo ARIMA" riattaccare "su dati che non hanno dato problemi al metodo di regressione".

La regressione ti dà una risposta, ma è la risposta giusta? Se costruisco modelli di regressione lineare e di apprendimento automatico e tutti giungono alla stessa conclusione, cosa significa?

Quindi, in sintesi, la regressione sì e le serie temporali possono entrambi rispondere alla stessa domanda e tecnicamente, le serie temporali sono tecnicamente regressione (sebbene auto-regressione). I modelli di serie storiche sono meno complessi e quindi più robusti dei modelli di regressione. Se pensi alla specializzazione, i modelli TS sono specializzati nella previsione, mentre la regressione è specializzata nella comprensione. Si riduce a se si desidera spiegare o prevedere.


1
"I modelli di serie storiche sono meno complessi e quindi più robusti dei modelli di regressione" .... Quello che intendevi dire era "I modelli ARIMA sono meno complessi e quindi più robusti dei modelli di regressione". Incorporare ARIMA e regressione è indicato come Transfer Function Models ... che è quindi la scelta saggia che combina quindi sia la comprensione (regressione) che i fattori di fondo sconosciuti / non specificati (ARIMA).
IrishStat

2
@IrishStat Ciao Mr. Reilly, ho letto le tue risposte a diversi post qui in stackexchange e ho anche letto molti dei documenti in Autobox e i collegamenti per il corso delle serie storiche dell'alimentatore, ma ancora non lo faccio capire perché (o se) una regressione lineare (usando OLS), con l'uso di variabili ritardate e termini di errore ritardati, se necessario, non funzionerebbe
Miguel M.

@IrishStat è il metodo OLS che non funziona?
Miguel M.,

1
IrishStat per espandersi sul tuo punto, l'obiettivo sarebbe la causalità di Granger. Ad esempio, anche se un coefficiente è statisticamente significativo, potrebbe non essere necessariamente significativo nel migliorare l'accuratezza della previsione. Nella mia ricerca, ho scoperto che i modelli di regressione (lineare, lazo, ecc.), Tendono a dire che le cose sono importanti di quello che sono in realtà, mentre la foresta casuale tende a declassarle e identificare le vere leve. Inoltre, la foresta casuale ha la stessa accuratezza fuori campione dei modelli lineari. L'unico inconveniente è che non si può dire quali siano effettivamente i coefficienti.
Modello Markov nascosto

2
@MiguelM. Certamente potrebbe funzionare perché una funzione di trasferimento è un modello Polynomial Distributed Lag, che forse include spostamenti di livello / tendenze temporali / impulsi stagionali rilevati empiricamente durante la regolazione degli impulsi (anomalie di una volta). Penso che la differenza principale sia il percorso verso l'identificazione e le strategie di revisione del modello
Irish:

0

Pensando che la differenza più profonda tra le funzioni di trasferimento e la regressione lineare multipe (nel suo uso abituale) risieda nei loro obiettivi, le regressioni multiple sono orientate a trovare le principali determinanti causali osservabili della variabile dipendente mentre le funzioni di trasferimento vogliono solo prevedere l'effetto su una dipendente variabile della variazione di una specifica variabile esogena ... In sintesi, la regressione multipla è orientata alla spiegazione esaustiva e alla funzione di trasferimento alla previsione di effetti molto specifici ...


Non penso che questo sia abbastanza preciso, perché entrambi i metodi producono coefficienti che possono in effetti essere interpretati. Inoltre, le funzioni di trasferimento fanno molto affidamento sull'analisi causale e sono in realtà migliori nel distinguere tale regressione lineare multipla. Inoltre, questo post richiede differenze meccaniche / metodologiche tra questi due metodi
Miguel M.,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.