Analisi di serie temporali con molti valori zero


19

Questo problema riguarda in realtà il rilevamento di incendi, ma è fortemente analogo ad alcuni problemi di rilevamento del decadimento radioattivo. I fenomeni osservati sono sia sporadici che altamente variabili; pertanto, una serie temporale sarà costituita da lunghe stringhe di zero interrotte da valori variabili.

L'obiettivo non è semplicemente catturare eventi (interruzioni negli zeri), ma caratterizzare quantitativamente gli eventi stessi. Tuttavia, i sensori sono limitati e quindi a volte registrano zero anche se la "realtà" è diversa da zero. Per questo motivo, è necessario includere zero durante il confronto dei sensori.

Il sensore B potrebbe essere più sensibile del sensore A e vorrei poterlo descrivere statisticamente. Per questa analisi, non ho "verità", ma ho un sensore C, che è indipendente dai sensori A&B. Quindi la mia aspettativa è che un migliore accordo tra A / B e C indichi un migliore accordo con la "verità". (Questo può sembrare traballante, ma dovrai fidarti di me: sono qui su un terreno solido, basato su ciò che è noto da altri studi sui sensori).

Il problema, quindi, è come quantificare "un migliore accordo sulle serie storiche". La correlazione è la scelta ovvia, ma sarà influenzata da tutti quegli zeri (che non possono essere esclusi) e ovviamente influenzata in modo sproporzionato dai valori massimi. RMSE potrebbe anche essere calcolato, ma sarebbe fortemente ponderato verso il comportamento dei sensori nel caso vicino allo zero.

Q1: Qual è il modo migliore per applicare un ridimensionamento logaritmico a valori diversi da zero che verranno quindi combinati con zero in un'analisi delle serie temporali?

D2: Quali "best practice" puoi consigliare per un'analisi di serie temporali di questo tipo, in cui il focus su valori diversi da zero è il focus, ma i valori zero dominano e non possono essere esclusi?

Risposte:


11

Per riaffermare la tua domanda "Come fa l'analista a gestire lunghi periodi di assenza di domanda che non seguono uno schema specifico?"

La risposta alla tua domanda è Intermittent Demand Analysis o Sparse Data Analysis. Ciò si presenta normalmente quando si hanno "molti zeri" rispetto al numero di non zeri. Il problema è che ci sono due variabili casuali; il tempo tra gli eventi e la dimensione prevista dell'evento. Come hai detto, l'autocorrelazione (acf) dell'intera serie di letture non ha senso a causa della sequenza di zero che migliora falsamente l'acf. Puoi seguire discussioni come "Il metodo di Croston", che è una procedura basata sul modello piuttosto che una procedura basata sui dati. Il metodo di Croston è vulnerabile a valori anomali e cambiamenti / tendenze / variazioni di livello nel tasso di domanda, ovvero la domanda divisa per il numero di periodi dall'ultima richiesta. Un approccio molto più rigoroso potrebbe essere quello di perseguire "Dati sparsi - Dati equidistanti" o ricerche del genere. Una soluzione piuttosto ingegnosa mi è stata suggerita dal Prof. Ramesh Sharda dell'OSU e la utilizzo da diversi anni nella mia pratica di consulenza. Se una serie ha punti temporali in cui si verificano vendite e lunghi periodi di tempo in cui non si verificano vendite, è possibile convertire le vendite in vendite per periodo dividendo le vendite osservate per il numero di periodi di nessuna vendita ottenendo così un tasso. È quindi possibile identificare un modello tra la tariffa e l'intervallo tra le vendite che culmina in una tariffa prevista e in un intervallo previsto. Puoi saperne di più su autobox.com e google "domanda intermittente" Se una serie ha punti temporali in cui si verificano vendite e lunghi periodi di tempo in cui non si verificano vendite, è possibile convertire le vendite in vendite per periodo dividendo le vendite osservate per il numero di periodi di nessuna vendita ottenendo così un tasso. È quindi possibile identificare un modello tra la tariffa e l'intervallo tra le vendite che culmina in una tariffa prevista e in un intervallo previsto. Puoi saperne di più su autobox.com e google "domanda intermittente" Se una serie ha punti temporali in cui si verificano vendite e lunghi periodi di tempo in cui non si verificano vendite, è possibile convertire le vendite in vendite per periodo dividendo le vendite osservate per il numero di periodi di nessuna vendita ottenendo così un tasso. È quindi possibile identificare un modello tra la tariffa e l'intervallo tra le vendite che culmina in una tariffa prevista e in un intervallo previsto. Puoi saperne di più su autobox.com e google "domanda intermittente"


1
Ho un problema di previsione con domanda intermittente. Mi è stato chiesto di risolvere. So che ci sono diversi software specifici per questo periodo di previsione, ma non sono gratuiti. Potete per favore dirmi se siete a conoscenza di eventuali funzioni integrate nel software open source (come ad esempio R) per risolvere questo problema? Ho cercato ma non l'ho trovato finora ... Grazie!
Assu,

1
@assu: non sono a conoscenza di alcun software gratuito che soddisfi le tue esigenze.
IrishStat,

4
@assu. La croston()funzione nel forecastpacchetto in R implementerà il metodo di Croston per la previsione dei dati della domanda intermittente.
Rob Hyndman,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.