Quanti ritardi usare nel test Ljung-Box di una serie storica?


20

Dopo che un modello ARMA è stato adattato a una serie storica, è comune controllare i residui tramite il test portmanteau di Ljung-Box (tra gli altri test). Il test Ljung-Box restituisce un valore ap. Ha un parametro, h , che è il numero di ritardi da testare. Alcuni testi raccomandano di usare h = 20; altri raccomandano di usare h = ln (n); la maggior parte non dire ciò h da utilizzare.

Piuttosto che usare un singolo valore per h , supponiamo che io faccia il test Ljung-Box per tutte le h <50, e quindi scelgo h che dia il valore p minimo. Questo approccio è ragionevole? quali sono i vantaggi e gli svantaggi? (Uno svantaggio evidente è l'aumento del tempo di calcolo, ma questo non è un problema qui.) C'è letteratura su questo?

Elaborare leggermente .... Se il test fornisce p> 0,05 per tutte le h , ovviamente le serie temporali (residui) superano il test. La mia domanda riguarda come interpretare il test se p <0,05 per alcuni valori di h e non per altri valori.


1
@ user2875, ho eliminato la mia risposta. Il fatto è che per grandi il test non è affidabile. Quindi la risposta dipende davvero da quale , . Inoltre qual è il valore esatto di ? Se riduciamo la soglia a , il risultato del test cambia? Personalmente in caso di ipotesi contrastanti cerco altri indicatori se il modello è buono o no. Quanto bene si adatta il modello? Come si confronta il modello con i modelli alternativi? Il modello alternativo ha gli stessi problemi? Per quali altre violazioni il test rifiuta il null? h p < 0,05 p 0,01hhp<0.05p0.01
mpiktas,

1
@mpiktas, Il test di Ljung-Box si basa su una statistica la cui distribuzione è asintotica (man mano che h diventa grande) chi-quadrato. Man mano che h diventa grande rispetto a n, tuttavia, la potenza del test diminuisce a 0. Quindi il desiderio di scegliere h abbastanza grande da rendere la distribuzione vicina al chi-quadrato ma abbastanza piccola da avere potenza utile. (Non so quale sia il rischio di un falso negativo, quando h è piccola.)
user2875

@ user2875, questa la terza volta che hai cambiato la domanda. Prima chiedi della strategia di scegliere con il valore più piccolo, quindi come interpretare il test se per alcuni valori di , e ora qual è la ottimale da scegliere. Tutte e tre le domande hanno risposte diverse e possono anche avere risposte diverse a seconda del contesto del problema specifico. p < 0,05 h hhp<0.05hh
mpiktas,

@mpiktas, le domande sono tutte uguali, solo modi diversi di vederlo. (Come sottolineato, se p> 0,05 per tutte le h, allora sappiamo come interpretare la p più piccola; se conoscessimo la h ottimale - non lo facciamo - non ci preoccuperemmo di scegliere la p più piccola.)
user2875

Risposte:


9

La risposta dipende sicuramente da: Per cosa stanno effettivamente cercando di utilizzare il test ?Q

Il motivo comune è: avere più o meno fiducia nel significato statistico congiunto dell'ipotesi nulla di nessuna autocorrelazione fino al ritardo (in alternativa supponendo che si abbia qualcosa di simile a un debole rumore bianco ) e costruire un modello parsimonioso , avendo il minimo numero di parametri possibile.h

Di solito i dati delle serie temporali hanno un modello stagionale naturale, quindi la pratica regola pratica sarebbe quella di impostare al doppio di questo valore. Un altro è l'orizzonte di previsione, se si utilizza il modello per le esigenze di previsione. Infine, se trovi ritardi significativi in ​​questi ultimi ritardi, prova a pensare alle correzioni (questo potrebbe essere dovuto ad alcuni effetti stagionali o i dati non sono stati corretti per i valori anomali).h

Piuttosto che usare un singolo valore per h, supponiamo che io faccia il test Ljung-Box per tutte le h <50, e quindi scelgo h che dia il valore p minimo.

È un test di significatività congiunto , quindi se la scelta di è basata sui dati, allora perché dovrei preoccuparmi di alcune piccole (occasionali?) Partenze in qualsiasi ritardo inferiore a , supponendo che sia molto inferiore a ovviamente (la potenza del test che hai citato). Cercando di trovare un modello semplice ma pertinente, suggerisco i criteri di informazione descritti di seguito.h nhhn

La mia domanda riguarda come interpretare il test se per alcuni valori di e non per altri valori.hp<0.05h

Quindi dipenderà da quanto accadrà dal presente. Svantaggi delle partenze lontane: più parametri da stimare, meno gradi di libertà, peggiore potere predittivo del modello.

Prova a stimare il modello includendo le parti MA e \ o AR nel momento in cui si verifica la partenza E osserva inoltre uno dei criteri di informazione (AIC o BIC a seconda della dimensione del campione), ciò ti fornirebbe ulteriori approfondimenti su quale modello è più parsimoniosa. Anche eventuali esercizi di predizione fuori campione sono i benvenuti qui.


+1, questo è quello che stavo cercando di esprimere ma non sono stato in grado di :)
mpiktas

8

Supponiamo di specificare un modello AR (1) semplice, con tutte le consuete proprietà,

yt=βyt-1+ut

Indica la covarianza teorica del termine di errore come

γjE(utut-j)

Se potessimo osservare il termine di errore, allora l'autocorrelazione di esempio del termine di errore è definita come

ρ~jγ~jγ~0

dove

γ~j1nΣt=j+1nutut-j,j=0,1,2 ...

Ma in pratica, non osserviamo il termine di errore. Quindi l'autocorrelazione del campione relativa al termine di errore sarà stimata usando i residui della stima, come

γ^j1nΣt=j+1nu^tu^t-j,j=0,1,2 ...

La statistica Q Box-Pierce (la Ljung-Box Q è solo una versione in scala asintoticamente neutra di essa) è

QBP=nΣj=1pρ^j2=Σj=1p[nρ^j]2d???χ2(p)

Il nostro problema è esattamente se si può dire che abbia asintoticamente una distribuzione chi-quadro (sotto il valore zero di autocorellazione nel termine dell'errore) in questo modello. Perché ciò accada, ognuno di QBP
deve essere asintoticamente normale standard. Un modo per verificarlo è esaminare senρ^j ha la stessa distribuzione asintotica comenρ^ (che è costruito usando gli errori veri, e così ha il comportamento asintotico desiderato sotto il null).nρ~

Abbiamo quello

u^t=yt-β^yt-1=ut-(β^-β)yt-1

dove β è uno stimatore consistente. Cosìβ^

γ^j1nΣt=j+1n[ut-(β^-β)yt-1][ut-j-(β^-β)yt-j-1]

=γ~j-1nΣt=j+1n(β^-β)[utyt-j-1+ut-jyt-1]+1nΣt=j+1n(β^-β)2yt-1yt-j-1

Si presume che il campione sia stazionario ed ergodico e si presume che i momenti esistano fino all'ordine desiderato. Dal momento che lo stimatore β è consistente, questo è sufficiente per le due somme di andare a zero. Quindi concludiamoβ^

γ^jpγ~j

Questo implica che

ρ^jpρ~jpρj

Ma ciò non garantisce automaticamente che converge a nρ^jnρ~j(in distribuzione) (si pensi che il teorema della mappatura continua non si applica qui perché la trasformazione applicata alle variabili casuali dipende da). Perché ciò accada, abbiamo bisognon

nγ^jdnγ~j

(il denominatore -tilde o hat- converge alla varianza del termine di errore in entrambi i casi, quindi è neutro per il nostro problema).γ0

abbiamo

nγ^j=nγ~j-1nΣt=j+1nn(β^-β)[utyt-j-1+ut-jyt-1]+1nΣt=j+1nn(β^-β)2yt-1yt-j-1

Quindi la domanda è: fai queste due somme, moltiplicate ora per , vai a zero in probabilità in modo che rimarremo connasintoticamente?nγ^j=nγ~j

Per la seconda somma che abbiamo

1nΣt=j+1nn(β^-β)2yt-1yt-j-1=1nΣt=j+1n[n(β^-β)][(β^-β)yt-1yt-j-1]

Dal converge ad una variabile casuale, e β è coerente, questo andrà a zero.[n(β^-β)]β^

Per la prima somma, anche qui abbiamo questo converge ad una variabile casuale, e quindi si ha che [n(β^-β)]

1nΣt=j+1n[utyt-j-1+ut-jyt-1]pE[utyt-j-1]+E[ut-jyt-1]

Il primo valore atteso, è zero in base alle ipotesi del modello AR (1) standard. Ma il secondo valore atteso non lo è , poiché la variabile dipendente dipende da errori passati.E[utyt-j-1]

Quindi non avrà la stessa distribuzione asintotica comenρ^j. Ma la distribuzione asintotica di quest'ultimo è Normale standard, che è quella che porta a una distribuzione chi-quadrata quando si quadrano i campernρ~j

Pertanto, concludiamo che in un modello di serie storiche pure, la statistica Box-Pierce Q e la statistica Ljung-Box Q non si può dire che abbia una distribuzione chi-quadro asintotica, quindi il test perde la sua giustificazione asintotica.

Ciò accade perché la variabile del lato destro (qui il ritardo della variabile dipendente) in base alla progettazione non è strettamente esogena al termine dell'errore e abbiamo scoperto che è necessaria una tale esogeneità rigorosa affinché la statistica Q BP / LB abbia il distribuzione asintotica postulata.

Qui la variabile del lato destro è solo "predeterminata", e quindi il test Breusch-Pagan è valido. (per l'insieme completo delle condizioni richieste per un test asintoticamente valido, vedere Hayashi 2000, p. 146-149).


1
Hai scritto "Ma il secondo valore atteso non lo è, poiché la variabile dipendente dipende da errori passati." Questo si chiama rigorosa esogeneità . Sono d'accordo che si tratta di un presupposto forte e puoi costruire un framework AR (p) senza di esso, semplicemente usando una debole esogeneità . Questo è il motivo per cui il test di Breusch-Godfrey è migliore in un certo senso: se il nulla non è vero, allora BL perde potenza. BG si basa su una debole esogeneità. Entrambi i test non sono validi per alcune applicazioni econometriche comuni, vedere ad esempio questa presentazione di Stata , p. 4/44.
Aksakal,

3
@Aksakal Grazie per il riferimento. Il punto è esattamente che senza una rigida esogeneità, il Box-Pierce / Ljung-Box non ha una distribuzione chi-quadro asintotica, questo è ciò che mostra la matematica sopra. Una debole esogeneità (che vale nel modello sopra) non è sufficiente per loro. Questo è esattamente ciò che dice la presentazione a cui si collega in p. 3/44.
Alecos Papadopoulos,

2
@AlecosPapadopoulos, un post fantastico !!! Tra i pochi migliori che ho incontrato qui a Cross Validated. Vorrei solo che non sarebbe scomparso in questo lungo thread e molti utenti lo troverebbero e ne trarrebbero beneficio in futuro.
Richard Hardy,

3

Prima di concentrarti sulla "destra" h (che sembra essere più un'opinione che una regola rigida), assicurati che il "ritardo" sia definito correttamente.

http://www.stat.pitt.edu/stoffer/tsa2/Rissues.htm

Citando la sezione seguente del numero 4 nel link sopra:

".... I valori p mostrati per il grafico statistico di Ljung-Box sono errati perché i gradi di libertà usati per calcolare i valori p sono lag anziché lag - (p + q). Cioè, la procedura utilizzata NON tiene conto del fatto che i residui provengono da un modello montato. SÌ, almeno uno sviluppatore core R lo sa .... "

Modifica (23/01/2011): ecco un articolo di Burns che potrebbe aiutare:

http://lib.stat.cmu.edu/S/Spoetry/Working/ljungbox.pdf


@ bil_080, l'OP non menziona R, e la pagina di aiuto per Box.test in R menziona la correzione e ha un argomento per consentire la correzione, sebbene sia necessario fornirla manualmente.
mpiktas,

@mpiktas, Oops, hai ragione. Ho pensato che fosse una domanda R. Per quanto riguarda la seconda parte del tuo commento, ci sono diversi pacchetti R che usano le statistiche di Ljung-Box. Quindi, è una buona idea assicurarsi che l'utente capisca cosa significa "ritardo" del pacchetto.
bill_080,

Grazie - Sto usando R, ma la domanda è generale. Per sicurezza, stavo facendo il test con la funzione LjungBox nel pacchetto portes, oltre a Box.test.
user2875

2

Il thread "Test per l'autocorrelazione: Ljung-Box contro Breusch-Godfrey" mostra che il test di Ljung-Box è essenzialmente inapplicabile nel caso di un modello autoregressivo. Mostra anche che dovrebbe essere usato il test Breusch-Godfrey. Ciò limita la pertinenza della tua domanda e delle risposte (sebbene le risposte possano includere alcuni punti generalmente positivi).


Il problema con il test LB è quando i modelli autoregressivi hanno altri regressori, cioè ARMAX non i modelli ARM. OP afferma esplicitamente ARMA non ARMAX nella domanda. Quindi, penso che la tua risposta sia errata.
Aksakal,

@Aksakal, vedo chiaramente dalla risposta di Alecos Papadopoulos (e commenti sotto di essa) nel thread sopra citato che il test di Ljung-Box non è applicabile in entrambi i casi, vale a dire AR / ARMA puro e ARX ​​/ ARMAX. Pertanto, non posso essere d'accordo con te.
Richard Hardy,

La risposta di Alecos Papadopoulos è buona, ma incompleta. Sottolinea l'assunto di rigorosa esogeneità del test di Ljung-Box ma non menziona il fatto che se stai bene con l'assunto, allora il test LB è OK da usare. Il test BG, che io e lui prediligiamo rispetto a LB, si basa su una debole esogeneità. Ovviamente è meglio usare i test con ipotesi più deboli in generale. Tuttavia, anche i presupposti del test BG sono troppo forti in molti casi.
Aksakal,

@Aksakal, L'impostazione di questa domanda è abbastanza definita: considera i residui di un modello ARMA. La cosa importante qui è che LB non funziona (come mostrato esplicitamente nel post di Alecos in questo e nel thread sopra citato) mentre BG test funziona. Naturalmente, possono succedere cose in altri contesti ( anche i presupposti del test BG sono troppo forti in molti casi ) - ma questo non è il problema in questo thread. Inoltre, non ho capito quale sia il presupposto nella tua affermazione se stai bene con il presupposto, quindi il test LB è OK da usare . Questo dovrebbe invalidare il punto Alecos?
Richard Hardy,

1

Escanciano e Lobato hanno costruito un test portmanteau con selezione automatica del ritardo basata sui dati basata sul test Pierce-Box e sui suoi perfezionamenti (che includono il test Ljung-Box).

L'essenza del loro approccio è quella di combinare i criteri AIC e BIC --- comuni nell'identificazione e nella stima dei modelli ARMA --- per selezionare il numero ottimale di ritardi da utilizzare. Nell'introduzione di essi suggeriscono che, intuitivamente, `` i test condotti utilizzando il criterio BIC sono in grado di controllare correttamente l'errore di tipo I e sono più potenti quando la correlazione seriale è presente nel primo ordine ''. Invece, i test basati su AIC sono più potenti rispetto alla correlazione seriale di alto ordine. La loro procedura quindi sceglie una selezione di ritardo di tipo BIC nel caso in cui le autocorrelazioni sembrano essere piccole e presenti solo a basso ordine, e altrimenti una sezione di ritardo di tipo AIC.

Il test è implementato nel Rpacchetto vrtest(vedi funzione Auto.Q).


1

min(20,T-1)lnTT

Il primo dovrebbe provenire dal libro autorevole di Box, Jenkins e Reinsel. Analisi delle serie storiche: previsione e controllo. 3a ed. Englewood Cliffs, NJ: Prentice Hall, 1994 .. Tuttavia, ecco tutto ciò che dicono dei ritardi a pag.314: inserisci qui la descrizione dell'immagine

Non è in alcun modo un argomento o un suggerimento forte, ma le persone continuano a ripeterlo da un posto all'altro.

La seconda impostazione per un ritardo proviene da Tsay, RS Analysis of Financial Time Series. 2a Ed. Hoboken, NJ: John Wiley & Sons, Inc., 2005, ecco cosa ha scritto a p.33:

Vengono spesso utilizzati diversi valori di m. Gli studi di simulazione suggeriscono che la scelta di m ≈ ln (T) fornisce migliori prestazioni energetiche.

Questo è un argomento un po 'più forte, ma non c'è una descrizione di che tipo di studio è stato fatto. Quindi, non lo prenderei per un valore nominale. Inoltre mette in guardia sulla stagionalità:

Questa regola generale necessita di modifiche nell'analisi delle serie storiche stagionali per le quali le autocorrelazioni con ritardi a multipli della stagionalità sono più importanti.

Riassumendo, se hai solo bisogno di inserire un po 'di ritardo nel test e andare avanti, puoi usare una di queste impostazioni e va bene, perché è quello che fanno la maggior parte dei professionisti. Siamo pigri o, più probabilmente, non abbiamo tempo per queste cose. Altrimenti, dovresti condurre le tue ricerche sul potere e sulle proprietà delle statistiche per le serie con cui ti occupi.

AGGIORNARE.

Xt

yt=Xt'β+φ(L)yt+ut

Tuttavia, OP non ha indicato che sta facendo ARMAX, al contrario, menziona esplicitamente ARMA:

Dopo che un modello ARMA è stato adattato a una serie storica, è comune controllare i residui tramite il test portmanteau di Ljung-Box

Uno dei primi documenti che indicava un potenziale problema con il test LB era Dezhbaksh, Hashem (1990). " L'uso inappropriato dei test di correlazione seriale nei modelli lineari dinamici ", Review of Economics and Statistics, 72, 126–132. Ecco l'estratto del documento:

inserisci qui la descrizione dell'immagine

Come puoi vedere, non si oppone all'utilizzo del test LB per modelli di serie storiche pure come ARMA. Vedi anche la discussione nel manuale di uno strumento di econometria standard EVview:

Se la serie rappresenta i residui della stima ARIMA, i gradi di libertà appropriati devono essere adeguati per rappresentare il numero di autocorrelazioni meno il numero di termini AR e MA precedentemente stimati. Si noti inoltre che occorre prestare attenzione nell'interpretazione dei risultati di un test di Ljung-Box applicato ai residui da una specifica ARMAX (vedere Dezhbaksh, 1990, per prove di simulazione sulle prestazioni del campione finito del test in questa impostazione)

Sì, devi fare attenzione con i modelli ARMAX e il test LB, ma non puoi fare un'affermazione generale sul fatto che il test LB è sempre sbagliato per tutte le serie autoregressive.

AGGIORNAMENTO 2

La risposta di Alecos Papadopoulos mostra perché il test di Ljung-Box richiede una rigorosa ipotesi di esogeneità . Non lo mostra nel suo post, ma il test Breusch-Gpdfrey (un altro test alternativo) richiede solo una debole esogeneità , il che è ovviamente migliore. Questo è Greene, Econometrics, 7 ° ed. dice sulle differenze tra i test, p.923:

XtεSXt


Suppongo che tu abbia deciso di rispondere alla domanda poiché è stata urtata in cima ai thread attivi dalla mia recente risposta. Curiosamente, sostengo che il test è inappropriato nell'impostazione in esame, rendendo problematico l'intero thread e le risposte in esso in particolare. Pensi che sia una buona pratica pubblicare un'altra risposta che ignori questo problema senza nemmeno menzionarlo (proprio come fanno tutte le risposte precedenti)? O pensi che la mia risposta non abbia senso (il che giustificherebbe la pubblicazione di una risposta come la tua)?
Richard Hardy,

Grazie per un aggiornamento! Non sono un esperto, ma l'argomentazione di Alecos Papadopoulos in "Test per l'autocorrelazione: Ljung-Box contro Breusch-Godfrey" e nei commenti sotto la sua risposta suggerisce che Ljung-Box è effettivamente inapplicabile sui residui di puro ARMA (oltre che Modelli ARMAX). Se la formulazione è confusa, controlla la matematica lì, sembra che vada bene. Penso che questa sia una domanda molto interessante e importante, quindi vorrei davvero trovare un accordo tra tutti noi qui.
Richard Hardy,

0

... h dovrebbe essere il più piccolo possibile per preservare la potenza che il test LB può avere in tali circostanze. Man mano che h aumenta la potenza cala. Il test LB è un test terribilmente debole; devi avere molti campioni; n deve essere ~> 100 per essere significativo. Purtroppo non ho mai visto un test migliore. Ma forse uno esiste. Qualcuno ne conosce uno?

Paul3nt


0

Non esiste una risposta corretta a ciò che funziona in tutte le situazioni per i motivi che altri hanno detto che dipenderà dai tuoi dati.

mion(n2-2,40)

Tutti i valori predefiniti sono errati, ovviamente, e questo sarà sicuramente sbagliato in alcune situazioni. In molte situazioni, questo potrebbe non essere un brutto posto per iniziare.


0

Lascia che ti suggerisca il nostro pacchetto R hwwntest . Ha implementato test del rumore bianco basati su Wavelet che non richiedono alcun parametro di ottimizzazione e hanno buone dimensioni e potenza statistiche.

Inoltre, ho recentemente trovato "Thoughts on the Ljung-Box test" che è un'eccellente discussione sull'argomento di Rob Hyndman.

Aggiornamento: considerando la discussione alternativa in questo thread riguardante ARMAX, un altro incentivo a guardare hwwntest è la disponibilità di una funzione di potenza teorica per uno dei test contro un'ipotesi alternativa del modello ARMA (p, q).

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.