Relazione e differenza tra serie storiche e regressione?


12

Quali sono le relazioni e le differenze tra serie storiche e regressione?

Per i modelli e le ipotesi , è corretto che i modelli di regressione assumano l'indipendenza tra le variabili di output per valori diversi della variabile di input, mentre il modello di serie temporali no? Quali sono alcune altre differenze?

Per i metodi , da un sito Web di Darlington

Esistono numerosi approcci all'analisi delle serie storiche, ma i due più noti sono il metodo di regressione e il metodo Box-Jenkins (1976) o ARIMA (AutoRegressive Integrated Moving Average). Questo documento introduce il metodo di regressione. Ritengo che il metodo di regressione sia di gran lunga superiore all'ARIMA per tre motivi principali

Non capisco bene quale sia il "metodo di regressione" per le serie storiche sul sito Web e come sia diverso dal metodo Box-Jenkins o ARIMA. Apprezzo se qualcuno può fornire alcuni spunti su tali domande.

Grazie e saluti!


2
La maggior parte delle risposte e dei commenti qui si concentra sulla domanda più specifica verso la fine. Questa è solo una bandiera che l'analisi delle serie storiche riguarda molto, molto più di Box-Jenkins o ARIMA. Interi campi di analisi delle serie storiche hanno un focus piuttosto diverso (o almeno più generale). I modelli di componenti non serviti sono solo uno dei numerosi esempi.
Nick Cox,

Risposte:


17

Penso davvero che questa sia una buona domanda e che meriti una risposta. Il link fornito è stato scritto da uno psicologo che afferma che alcuni metodi di produzione di birra fatta in casa sono un modo migliore di fare analisi delle serie storiche rispetto a Box-Jenkins. Spero che il mio tentativo di risposta incoraggi altri, che sono più informati sulle serie storiche, a contribuire.

Dalla sua introduzione, sembra che Darlington stia sostenendo l'approccio del solo adattamento di un modello AR con minimi quadrati. Cioè, se vuoi adattare il modello alla serie temporale z t , puoi semplicemente regredire alla serie z t sulla serie con ritardo 1 , ritardo 2 e così via fino a ritardo k , usando una normale regressione multipla. Questo è certamente permesso; in R, è persino un'opzione in

zt=α1zt1++αkztk+εt
ztzt12Karfunzione. L'ho provato e tende a dare risposte simili al metodo predefinito per adattare un modello AR in R.

Egli sostiene anche regredire su cose come t o poteri di t per trovare le tendenze. Ancora una volta, questo è assolutamente perfetto. Molti libri di serie temporali ne parlano, ad esempio Shumway-Stoffer e Cowpertwait-Metcalfe. In genere, un'analisi delle serie temporali potrebbe procedere lungo le seguenti linee: si trova una tendenza, la si rimuove, quindi si adatta un modello ai residui.zttt

Ma sembra anche che stia sostenendo un eccesso di adattamento e quindi usando la riduzione dell'errore quadratico medio tra la serie adattata e i dati come prova del fatto che il suo metodo è migliore. Per esempio:

Sento che i correlogrammi sono ormai obsoleti. Il loro scopo principale era quello di consentire ai lavoratori di indovinare quali modelli si adattassero meglio ai dati, ma la velocità dei computer moderni (almeno in regressione se non nell'adattamento dei modelli di serie temporali) consente a un lavoratore di adattare semplicemente diversi modelli e vedere esattamente come ognuno si adatta come misurato dall'errore quadratico medio. [La questione della capitalizzazione casuale non è rilevante per questa scelta, poiché i due metodi sono ugualmente sensibili a questo problema.]

Questa non è una buona idea perché il test di un modello dovrebbe essere in grado di prevedere quanto bene, non in che misura si adatta ai dati esistenti. Nei suoi tre esempi, usa "errore quadratico medio rettificato" come criterio per la qualità dell'adattamento. Naturalmente, un eccesso di adattamento di un modello ridurrà una stima dell'errore nel campione, quindi la sua affermazione che i suoi modelli sono "migliori" perché hanno un RMSE più piccolo è sbagliata.

In breve, dal momento che sta usando il criterio sbagliato per valutare quanto è buono un modello, raggiunge le conclusioni sbagliate sulla regressione contro ARIMA. Scommetto che, se avesse invece testato l' abilità predittiva dei modelli, ARIMA sarebbe risultata in cima. Forse qualcuno può provarlo se ha accesso ai libri che menziona qui .

[Supplemento: per ulteriori informazioni sull'idea di regressione, potresti voler dare un'occhiata ai libri di serie storiche più vecchi che sono stati scritti prima che ARIMA diventasse il più popolare. Ad esempio, Kendall, Time-Series , 1973, capitolo 11 ha un intero capitolo su questo metodo e confronti con ARIMA.]


La domanda è: quali sono le differenze (intrinseche)?
hbaghishani,

Per quanto ne so, l'autore non ha mai descritto il suo metodo di produzione artigianale in una pubblicazione peer-reviewed e i riferimenti alla e dalla letteratura statistica sembrano minimi e le sue principali pubblicazioni su argomenti metodologici risalgono agli anni '70. A rigor di termini, nulla di tutto ciò "prova" nulla ma senza abbastanza tempo o esperienza per valutare le affermazioni da solo, sarei estremamente riluttante a usarne una qualsiasi.
Gala,

@hbaghishani la differenza sostanziale è che i dati autocorrelati, cioè all'interno di ogni serie, distorcono l'interpretazione correlativa. Inoltre, è necessario considerare / correggere le violazioni gaussiane, ad esempio la media costante degli errori, la varianza costante nel tempo, i parametri costanti nel tempo.
Irish

@flounderer Le persone scrivono libri di testo per venderli e raccogliere frutti. A volte includono metodi anacronistici che vengono insegnati in modo errato perché in qualche data precedente si pensava fossero corretti. Per aumentare le vendite l'editore richiede spesso (in base alla mia esperienza personale) una metodologia obsoleta ma errata perché questi metodi sono nel programma.
IrishStat,

La modellazione @IrishStat dei dati autocorrelati potrebbe essere eseguita da modelli di regressione dinamica. Inoltre, altri modelli, come i modelli misti, potrebbero essere utilizzati per tali dati. Quindi, non penso che questa caratteristica sia la differenza sostanziale.
hbaghishani,

7

Il Prof. E. Parzen, forse un po 'invidioso di non aver proposto i metodi innovativi di Box e Jenkins, ha suggerito questo approccio di eccesso di adattamento e poi di dimissioni. Fallisce per molte ragioni (molte delle quali Flounderer ha ben riassunto), tra cui la mancata identificazione e correzione degli impulsi, degli spostamenti di livello, degli impulsi stagionali e delle tendenze dell'ora locale. Inoltre, è necessario prendere in considerazione le modifiche dei parametri nel tempo o le variazioni della varianza degli errori nel tempo.

Ho scritto un pezzo che potrebbe interessarti. Si chiama "Regression vs Box-Jenkins" ed è disponibile su http://www.autobox.com/cms/index.php/afs-university/intro-to-forecasting / doc_download / box-Jenkins 24 regressione-vs-

Un commento sulla procedura di Darlington che riflette tempo, tempo * tempo, tempo * tempo * tempo * tempo come predittori. In assenza del rilevamento degli interventi che porta all'isolamento di effetti anomali, è del tutto possibile (e scorretto!) Concludere per maggiori poteri temporali. Fai attenzione ai non statistici che eseguono analisi statistiche in quanto diffidare degli statistici che eseguono un intervento chirurgico al cervello. In tutta onestà si potrebbe anche aggiungere attenzione agli statistici / matematici delle serie non temporali che cercano di eseguire analisi delle serie storiche con una formazione limitata nell'analisi delle serie storiche.

Altri poster (in particolare whuber) in questo elenco hanno ripetutamente messo in guardia dall'utilizzare questo "approccio appropriato", principalmente in un contesto univariato. Questo avviso si applica anche ai modelli causali.

Spero che sia di aiuto.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.