Sviluppo di un modello di serie temporale appropriato per prevedere le vendite in base al record del mese scorso


12

Gestisco un'azienda online da due anni consecutivi, quindi ho i miei dati di vendita mensili da circa due anni. La mia attività per ogni mese è sicuramente influenzata dallo swing stagionale (prestazioni migliori a Natale, ecc.) E probabilmente da altri fattori di cui non sono a conoscenza.

Al fine di prevedere meglio le vendite future e al fine di valutare l'efficacia della mia campagna di vendita o l'impatto di nuovi concorrenti, voglio essere in grado di sviluppare un modello di serie temporale appropriato per estrapolare i miei dati di vendita attuali in futuro. In questo modo, confrontando il risultato della mia previsione con il risultato effettivo, posso testare quantitativamente l'efficacia della mia campagna di vendita o l'impatto dei concorrenti.

La mia domanda è, dato che ho 2 anni di dati sulle vendite, esiste comunque un modello predittivo di serie temporali per questo?

Nota: sono più interessato ai concetti e alle teorie di fondo, piuttosto che agli strumenti della scatola nera. A proposito di strumenti, ho matematica, matlab, R, Excel, Google Spreadsheet .... lo chiami.


Quale software utilizzi?
Dimitriy V. Masterov

1
@ DimitriyV.Masterov, ho Matlab / R / Excel / Mathematica ... lo chiami. In realtà sono più interessato ai concetti piuttosto che alla scrittura del codice vero e proprio
Graviton

Risposte:


14

Sì, ci sono modi per farlo. Le persone si guadagnano da vivere facendo cose del genere ;-)

Stai cercando previsioni causali . Guarda questo manuale online gratuito sulle previsioni per conoscere la metodologia di previsione.

Hai due problemi chiave nelle tue mani che devi affrontare: stagionalità (o più in generale, struttura delle serie temporali, possibilmente con autoregressione) da un lato, ed effetti causali come le promozioni dall'altro. Il capitolo 8 nel libro di testo sopra tratta le serie temporali nel contesto di ARIMA, mentre il capitolo 5 tratta degli effetti causali.

Fortunatamente, è possibile affrontare entrambi i problemi calcolando i cosiddetti modelli ARIMAX (la X sta per "effetti esterni", ovvero ARIMA con effetti esterni) o regressioni con errori ARIMA. Vedi il post del blog di Rob Hyndman su "Il pasticcio del modello ARIMAX" per la differenza. La auto.arima()funzione nel forecastpacchetto R si adatta a una regressione con errori ARIMA. Vediamo un esempio in cui prendo un set di dati standard con trend e stagionalità forti e aggiungo "promozioni".

library(forecast)
AirPassengers # a built-in dataset
#      Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
# 1949 112 118 132 129 121 135 148 148 136 119 104 118
# 1950 115 126 141 135 125 149 170 170 158 133 114 140
# 1951 145 150 178 163 172 178 199 199 184 162 146 166
# 1952 171 180 193 181 183 218 230 242 209 191 172 194
# 1953 196 196 236 235 229 243 264 272 237 211 180 201
# 1954 204 188 235 227 234 264 302 293 259 229 203 229
# 1955 242 233 267 269 270 315 364 347 312 274 237 278
# 1956 284 277 317 313 318 374 413 405 355 306 271 306
# 1957 315 301 356 348 355 422 465 467 404 347 305 336
# 1958 340 318 362 348 363 435 491 505 404 359 310 337
# 1959 360 342 406 396 420 472 548 559 463 407 362 405
# 1960 417 391 419 461 472 535 622 606 508 461 390 432

set.seed(1) # for reproducibility
promos <- rep(0,length(AirPassengers))
promos[sample(seq_along(AirPassengers),10)] <- 1
promos.future <- c(0,1,0,0,1,0,0,1,0,0,1,0)
AP.with.promos <- AirPassengers
AP.with.promos[promos==1] <- AP.with.promos[promos==1]+120

model <- auto.arima(AP.with.promos,xreg=promos)
summary(model) # examine the model - you'll see the estimated promo coefficient
# Series: AP.with.promos 
# ARIMA(0,1,1)(0,1,0)[12]                    

# Coefficients:
#           ma1    promos
#       -0.3099  122.2599
# s.e.   0.0947    2.2999

# sigma^2 estimated as 151.2:  log likelihood=-457.4
# AIC=920.79   AICc=920.98   BIC=929.42

# Training set error measures:
#                     ME     RMSE     MAE        MPE     MAPE      MASE         ACF1
# Training set 0.2682805 11.12974 8.24397 0.06139784 2.867274 0.1860814 0.0008326436

fcast <- forecast(model,xreg=promos.future,h=length(promos.future))
fcast
#          Point Forecast    Lo 80    Hi 80    Lo 95    Hi 95
# Jan 1961       447.1516 431.3951 462.9081 423.0542 471.2490
# Feb 1961       543.4115 524.2670 562.5559 514.1326 572.6904
# Mar 1961       449.1516 427.1345 471.1687 415.4793 482.8239
# Apr 1961       491.1516 466.5956 515.7076 453.5964 528.7068
# May 1961       624.4115 597.5556 651.2674 583.3389 665.4841
# Jun 1961       565.1516 536.1777 594.1255 520.8399 609.4633
# Jul 1961       652.1516 621.2044 683.0988 604.8220 699.4812
# Aug 1961       758.4115 725.6095 791.2135 708.2452 808.5778
# Sep 1961       538.1516 503.5942 572.7090 485.3006 591.0026
# Oct 1961       491.1516 454.9237 527.3795 435.7459 546.5573
# Nov 1961       542.4115 504.5869 580.2361 484.5637 600.2593
# Dec 1961       462.1516 422.7950 501.5082 401.9608 522.3424
promos.ts <- ts(c(AP.with.promos,fcast$mean),
                  start=start(AirPassengers),frequency=frequency(AirPassengers))
promos.ts[c(promos,promos.future)==0] <- NA

plot(fcast)
points(promos.ts,pch=19,col="red")

Arimax

I punti rossi sono le promozioni. Per impostazione predefinita, otterrai intervalli di previsione tracciati in grigio. Puoi inserire più regressori nel tuo modello attraverso il xregparametro, cosa che dovresti fare se hai diversi tipi di promozioni con effetti diversi. Sperimenta un po '.

Consiglierei di guardare dati più dettagliati di quelli mensili se li hai, ad esempio, settimanalmente. Soprattutto ovviamente se le tue promozioni non durano mesi interi. Puoi farlo separatamente per prodotto, anche in questo caso se promuovi prodotti specifici o su intere categorie.

Un'alternativa sarebbe, dato che sei più interessato ai concetti che al codice, per esaminare il livellamento esponenziale e modificarlo in base alle tue esigenze, aggiungendo componenti promozionali ai componenti standard a tre livelli, stagione e tendenza. Puoi fare molto di più con il livellamento esponenziale che con il tentativo di stimare la massima probabilità di un modello ARIMAX, ma il livellamento può trasformarsi in un incubo di contabilità se disponi di più tipi di promozione.


1
I modelli ARIMA con covariate sono discussi nella Sezione 9 del libro: www.otexts.org/fpp/9/1
Rob Hyndman

Grazie Rob. Ho davvero bisogno di
leggere

Grazie @StephanKolassa! una domanda a parte, posso ottenere il libro di cui parli nel post sopra, in formato mobi o epub?
Graviton,

1
@Graviton: bella domanda. Meglio chiedere agli autori. Uno di questi è Rob Hyndman, che ha commentato sopra.
Stephan Kolassa,

1
@Graviton. Lavorando su di esso. Vedi robjhyndman.com/hyndsight/fpp-amazon
Rob Hyndman

4

in primo luogo, non hai molti dati con cui giocare, solo 24 osservazioni. Nel tuo caso significa che hai a malapena un paio di parametri da stimare in modo affidabile. il modo più sistematico di previsione è elaborare un processo di generazione dei dati (DGP). fai un'ipotesi su quale sia il vero processo per le tue vendite, quindi provi a stimarne i parametri.

considerazione un modello di serie temporale puro con AR (1) DGP: , ovvero le tue vendite di questo mese sono una media ponderata delle vendite del mese scorso più e una costante. hai già 3 parametri (due coefficienti e una varianza di errore), il che significa circa 8 osservazioni per parametro - chiaramente non molto.xt=ϕxt1+c

poiché le tue vendite sono stagionali, dobbiamo fare qualcosa al riguardo. un modo è aggiungere la stagionalità moltiplicativa : in notazione operatore lag o in forma estesa: . questo aggiunge un altro parametro da stimare, quindi scendi a 6 osservazioni per parametro - un vero tratto.x t = c + ϕ 1 x t - 1 + ϕ 12 x t - 12 - ϕ 1 ϕ 12 x r - 13(1L)(1L12)xt=cxt=c+ϕ1xt1+ϕ12xt12ϕ1ϕ12xr13

in Matlab questo modello è specificato come arima('ARLags',1,'SARLags',12)

questo presuppone che le vendite siano stabili, cioè generalmente non in crescita.

se pensi che le tue vendite stiano crescendo, allora hai due opzioni: random walk (RW) e una tendenza temporale.

in Matlab RW è specificato con arima('D',1,'SARLags',12)

ovviamente, questi sono solo esempi di diversi DGP. qualunque cosa tu faccia, tieni presente il numero di parametri da stimare. con 24 osservazioni il tuo modello deve essere molto semplice, al massimo 4 parametri (comprese le varianze).


0

Ecco cosa dovresti fare Crea due grafici:

  • Vendite vs. tempo per tutti i 24 mesi
  • Vendite vs. tempo con il secondo anno tracciato in cima al primo anno

Guardali. Annota le date di eventuali promozioni speciali o attività concorrenziali note. "Dicembre" è di solito abbastanza ovvio, ma aggiungi una nota se aiuta a chiamarlo.

Vai avanti e monta un modello di serie temporale - qualsiasi modello (ce ne sono centinaia). Il modello potrebbe fornire una previsione leggermente migliore per il periodo successivo (t + 1) rispetto al tuo giudizio. Almeno, metterà alla prova il tuo giudizio. Oltre al periodo successivo (t + n, n> 1), qualsiasi modello di serie temporale è una schifezza. † Quindi dimentica di valutare quantitativamente l'efficacia delle campagne di vendita o gli effetti dei concorrenti. Se confronti le vendite effettive con le previsioni, scoprirai che le previsioni sono una schifezza. Prevedere il futuro è difficile e nessun metodo cambia questo fatto di base.

Troverai i tuoi due grafici più utili. Studia quelli per un po ', poi dedica il resto del tuo tempo a trovare idee su come aumentare le vendite - questo sarà un uso molto più redditizio del tuo tempo che cercare di adattarsi a un modello di serie storiche.

† Hai più speranze di poter creare un modello predittivo basato su indicatori anticipatori , vale a dire che le vendite di alloggi nel mese precedente potrebbero essere utili per prevedere le vendite di tende da finestra nel mese corrente.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.