Sono laureato in economia e commercio e attualmente studia per un master in ingegneria dei dati. Mentre studiavo la regressione lineare (LR) e poi l'analisi delle serie storiche (TS), mi è venuta in mente una domanda. Perché creare un metodo completamente nuovo, ovvero serie temporali (ARIMA), invece di utilizzare la regressione lineare multipla e di aggiungere variabili ritardate (con l'ordine dei ritardi determinato utilizzando ACF e PACF)? Quindi l'insegnante mi ha suggerito di scrivere un piccolo saggio sull'argomento. Non sarei venuto a cercare aiuto a mani vuote, quindi ho fatto le mie ricerche sull'argomento.
Sapevo già che quando si utilizza LR, se le assunzioni di Gauss-Markov vengono violate, la regressione OLS non è corretta e ciò accade quando si utilizzano i dati delle serie temporali (autocorrelazione, ecc.). (un'altra domanda su questo, un'ipotesi GM è che le variabili indipendenti dovrebbero essere normalmente distribuite? o solo la variabile dipendente subordinata a quelle indipendenti?)
So anche che quando si utilizza una regressione del ritardo distribuita, che è ciò che penso di proporre qui, e usando OLS per stimare i parametri, la multicollinearità tra le variabili può (ovviamente) sorgere, quindi le stime sarebbero sbagliate.
In un post simile su TS e LR qui, @IrishStat ha detto:
... un modello di regressione è un caso particolare di un modello di funzione di trasferimento noto anche come modello di regressione dinamica o modello XARMAX. Il punto saliente è l'identificazione del modello in serie temporali, ovvero le differenze appropriate, i ritardi appropriati delle X, la struttura ARIMA appropriata, l'identificazione appropriata di strutture deterministiche non specificate come impulsi, spostamenti di livello, andamenti dell'ora locale, impulsi stagionali e incorporazione delle modifiche ai parametri o alla varianza dell'errore .
(Ho anche letto il suo articolo in Autobox su Box Jenkins vs LR.) Ma questo non risolve ancora la mia domanda (o almeno non chiarisce le diverse meccaniche di RL e TS per me).
È ovvio che anche con variabili ritardate sorgono problemi OLS e non è efficiente né corretto, ma quando si utilizza la massima probabilità, questi problemi persistono? Ho letto che ARIMA è stimato con la massima probabilità, quindi se l'LR con ritardi è stimato con ML anziché OLS, produce i coefficienti "corretti" (supponiamo che includiamo anche termini di errore ritardati, come un ordine MA q).
In breve, il problema è OLS? Il problema è stato risolto applicando ML?