Deseasonalizing dati di conteggio


12

Ho usato stl () in R per scomporre i dati di conteggio in componenti di tendenza, stagionali e irregolari. I valori di tendenza risultanti non sono più numeri interi. Ho le seguenti domande:

  1. Stl () è un modo appropriato per deseasonalizzare i dati di conteggio?
  2. Dato che la tendenza risultante non viene più valutata come interger, posso usare lm () per modellare i componenti della tendenza?

Risposte:


8

Non esiste alcun problema inerente all'uso di stl () per destagionalizzare i dati di conteggio. Un problema da tenere presente, tuttavia, è che i dati di conteggio hanno generalmente una varianza crescente all'aumentare della media. Questo si vede spesso in entrambi gli elementi stagionali e casuali della decomposizione. L'uso di stl () sui dati non elaborati non ne terrà conto, quindi potrebbe essere meglio prendere prima il logaritmo (modifica - o radice quadrata) dei dati.

Non importa che i valori di tendenza non siano più numeri interi. Possono essere pensati in modo simile al parametro in una distribuzione di Poisson. Sebbene una variabile distribuita di Poisson debba essere un numero intero, la media non deve essere.

Tuttavia, ciò non significa necessariamente che è possibile utilizzare lm () per modellare il componente trend. Ci sono molte insidie ​​nelle tendenze modellistiche nelle serie storiche, poiché le correlazioni spurie saranno molto difficili da evitare. Più comunemente le persone detraggono prima la serie e poi modellano la parte residua.


1
Come si determina il numero di tendenze che devono essere soddisfatte e la lunghezza di ciascuna tendenza? Distingui tra cambiamenti di livello e tendenze e in generale come fai a detrarre la presenza di valori anomali / anomali?
IrishStat

@IrishStat - sì, quelli sono tutti punti positivi e non stavo cercando di affrontare l'intera serie di problemi, solo attirare l'attenzione sui problemi dell'utilizzo del componente trend dall'output di R's stl () come variabile di risposta in una regressione . stl () usa la regressione localmente ponderata nella sua decomposizione che generalmente dà risultati sensati quando si tratta di tendenze che cambiano direzione, ecc., sebbene ovviamente abbia dei limiti rispetto ai metodi basati su modelli, in particolare per la previsione.
Peter Ellis,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.