Qual è il problema con l'autocorrelazione?

Per prefigurare, ho un background matematico piuttosto profondo, ma non ho mai avuto a che fare con serie storiche o modelli statistici. Quindi non devi essere molto gentile con me :)

Sto leggendo questo documento sulla modellizzazione del consumo di energia negli edifici commerciali e l'autore afferma:

[La presenza di autocorrelazione sorge] perché il modello è stato sviluppato da dati di serie storiche sull'uso dell'energia, che è intrinsecamente autocorrelato. Qualsiasi modello puramente deterministico per i dati delle serie storiche avrà autocorrelazione. Si scopre che l'autocorrelazione riduce se [più coefficienti di Fourier] sono inclusi nel modello. Tuttavia, nella maggior parte dei casi il modello di Fourier ha un CV basso Il modello può quindi essere accettabile per scopi pratici che (sic) non richiedono alta precisione.

0.) Che cosa significa "qualsiasi modello puramente deterministico per i dati delle serie storiche avrà autocorrelazione"? Posso vagamente capire cosa significhi, ad esempio, come ti aspetteresti di prevedere il prossimo punto della serie temporale se avessi 0 autocorrelazione? Questo non è un argomento matematico, questo è il motivo per cui questo è 0 :)

1.) Ho avuto l'impressione che l'autocorrelazione abbia praticamente ucciso il tuo modello, ma a pensarci bene, non riesco a capire perché questo dovrebbe essere il caso. Allora perché l'autocorrelazione è una cosa cattiva (o buona)?

2.) La soluzione che ho sentito per gestire l'autocorrelazione è quella di diff le serie temporali. Senza cercare di leggere la mente dell'autore, perché non si dovrebbe fare una differenza se esiste un'autocorrelazione non trascurabile?

3.) Quali limitazioni pongono le autocorrelazioni non trascurabili su un modello? Si tratta di un'ipotesi da qualche parte (cioè, residui normalmente distribuiti quando si modella con una regressione lineare semplice)?

Ad ogni modo, mi dispiace se si tratta di domande di base e grazie in anticipo per l'aiuto.

time-series autocorrelation

— BenDundee
fonte

Risposte:

Penso che l'autore probabilmente stia parlando del residui del modello. Lo discuto a causa della sua affermazione sull'aggiunta di più coefficienti di Fourier; se, come credo, sta adattando un modello di Fourier, quindi l'aggiunta di più coefficienti ridurrà l'autocorrelazione dei residui a scapito di un CV più elevato.

Se hai difficoltà a visualizzarlo, pensa al seguente esempio: supponi di avere i seguenti set di dati da 100 punti, che provengono da un modello di Fourier a due coefficienti con rumore gaussiano bianco aggiunto:

Il grafico seguente mostra due accoppiamenti: uno fatto con 2 coefficienti di Fourier e uno fatto con 200 coefficienti di Fourier:

Come puoi vedere, i 200 coefficienti di Fourier si adattano meglio ai DATAPOINTS, mentre l'adattamento a 2 coefficienti (il modello "reale") si adatta meglio al MODELLO. Ciò implica che l'autocorrelazione dei residui del modello con 200 coefficienti sarà quasi sicuramente più vicina allo zero in tutti i ritardi rispetto ai residui del modello a 2 coefficienti, perché il modello con 200 coefficienti si adatta esattamente a quasi tutti i punti dati (ovvero, i residui saranno essere quasi tutti zeri). Tuttavia, cosa pensi che accadrà se lasci, diciamo, 10 punti dati fuori dal campione e si adatti agli stessi modelli? Il modello a 2 coefficienti predirà meglio i punti dati usciti dal campione! Pertanto, produrrà un errore CV inferiore rispetto al modello a 200 coefficienti; questo è chiamato overfitting. Il motivo dietro questa "magia" è perché ciò che CV effettivamente cerca di misurare è l' errore di predizione , cioè quanto bene il tuo modello prevede i punti dati non nel tuo set di dati.
In questo contesto, l'autocorrelazione sui residui è "cattiva", perché significa che non si sta modellando abbastanza bene la correlazione tra punti dati. Il motivo principale per cui le persone non fanno differenza nella serie è perché vogliono davvero modellare il processo sottostante così com'è. In genere si differenzia la serie storica per sbarazzarsi di periodicità o tendenze, ma se quella periodicità o tendenza è effettivamente ciò che si sta tentando di modellare, differenziarle potrebbe sembrare un'opzione dell'ultima risorsa (o un'opzione per modellare i residui con un processo stocastico più complesso).
Dipende molto dall'area su cui stai lavorando. Potrebbe essere un problema anche con il modello deterministico. Tuttavia, a seconda della forma dell'autocorrelazione, può essere facilmente visualizzato quando si verifica l'autocorrelazione a causa, ad esempio, di sfarfallio, rumore simile all'ARMA o se si tratta di una fonte periodica sottostante residua (nel qual caso si potrebbe desiderare di aumentare il numero di coefficienti di Fourier).

— Néstor
fonte

Grazie per la tua risposta e, se vuoi, mi piacerebbe provare a digerirli uno alla volta. Per 1.), esiste un modo intuitivo per capire perché l'inclusione di più coefficienti di Fourier riduce l'autocorrelazione e aumenta il CV (suppongo che si tratti di CV dei residui)?

— BenDundee,

Ho aggiunto un esempio. Spero che sia d'aiuto. E sì, si riferisce al CV dei residui.

— Néstor,

Ahh ok, penso di vedere. Ciò si lega a ciò che stavo per chiedere riguardo a 2. Come si potrebbe procedere a patchare questo modello (in generale) per capire meglio la correlazione? Potresti aggiungere un vincolo sulla matrice di correlazione dei coefficienti di Fourier?

— BenDundee,

Questo è un compito difficile anche a me. Soprattutto con i modelli periodici deterministici, diventa davvero difficile sapere quale tipo di modello di rumore usare. Il grosso problema è che non si conosce a priori il numero di coefficienti del modello di Fourier, quindi sono anche variabili casuali che è necessario modellare. In presenza di un numero ridotto di punti dati, farei sicuramente un salto reversibile MCMC per modellarlo. Vorrei provare diversi modelli di rumore e confrontare l'AIC / BIC tra di loro. Per set di dati di grandi dimensioni, tuttavia, questo non è fattibile.

— Néstor,

Ho trovato utile questo documento " Spurry Regressions in Econometrics " quando ho cercato di capire perché è necessario eliminare le tendenze. Fondamentalmente se due variabili sono di tendenza, esse cambieranno, il che è una ricetta per i problemi.

— congetture
fonte