Come tenere conto dell'impatto delle vacanze nelle previsioni

Ho una serie temporale giornaliera abbastanza prevedibile con stagionalità settimanale. Sono in grado di elaborare previsioni che sembrano essere abbastanza precise (confermate dalla convalida incrociata) quando non ci sono festività. Tuttavia, quando ci sono festività, ho i seguenti problemi:

Ricevo numeri diversi da zero per le festività nelle mie previsioni, anche se tutte le festività storiche sono 0. Questo non è davvero il problema principale. Il problema è ...
Poiché l'elaborazione che non si verifica durante le festività "si riversa" nei giorni successivi alle festività, una semplice variabile fittizia non la taglia, poiché questi valori anomali sembrano essere innovativi a breve termine. Se non ci fosse stagionalità settimanale, potrei forse fornire una stima per la distribuzione dei dati non elaborati sulla festività nei cinque giorni seguenti (come suggerito in Come si creano le variabili che riflettono l'impatto di lead e lag delle festività / effetti del calendario in un'analisi delle serie storiche? ). Tuttavia, la distribuzione della "ricaduta" dipende dal giorno della settimana in cui si verifica la festività e dal fatto che la festività sia natalizia o del Ringraziamento, in cui gli ordini vengono effettuati a un prezzo inferiore rispetto al resto dell'anno.

Ecco alcune istantanee della mia convalida incrociata che mostrano il risultato previsto (blu) rispetto al risultato reale (rosso) per le festività che compaiono in diversi giorni della settimana:

Temo anche che l'impatto del Natale dipenda dal giorno della settimana in cui cade, e ho solo sei anni di dati storici.

Qualcuno ha qualche suggerimento su come affrontare questi tipi di valori anomali innovativi nel contesto della previsione? (Purtroppo non posso condividere alcun dato)

— Julia Maddalena
fonte

Sono abbastanza interessato anche a questo.

— EngrStudent - Ripristina Monica l'

Se non riesci a pubblicare i tuoi dati, forse potresti pubblicare dati inventati simili ai tuoi dati? In molti casi ciò facilita risposte più pertinenti.

— Tim

Ridimensionare i dati. Il modello sarà lo stesso (appena ridimensionato). Puoi persino ridimensionare le previsioni sulla metrica originale.

— Tom Reilly,

Non potresti creare una variabile fittizia per le vacanze, una per le vacanze + 1 e una per le vacanze + 2 e impostarle su 1 solo se cadono in un giorno feriale?

Per quanto riguarda il Ringraziamento e il Natale, l'introduzione di variabili fittizie separate per queste festività sembra essere l'opzione peggiore (dato che hai solo sei anni di dati). In una certa misura, questa potrebbe essere la tua unica opzione: le persone si comportano in modo diverso in quelle vacanze rispetto a quelle che fanno, diciamo, il 4 luglio (e se stai studiando ad esempio i modelli di vendita al dettaglio, allora devi semplicemente convivere con quelli essendo vacanze "speciali" e vorrebbe sicuramente analizzarle separatamente). Tuttavia, forse le idee seguenti ti sono utili:

Ringraziamento. Il fatto che cada sempre nello stesso giorno della settimana (giovedì) non dovrebbe semplificarlo? Vale a dire un manichino del Ringraziamento potrebbe essere praticabile anche in un set di dati di sei anni perché il modello del giorno della settimana sarà sempre lo stesso.
Natale. Mi sembra di vedere il tuo grafico che il problema principale è che l'effetto dura più a lungo che dopo le altre festività - se definisci "Natale" come la vigilia di Natale (24 dicembre), allora sarà perché molte persone rimarranno a casa anche su Natale (25 dicembre) (e persino Santo Stefano (26 dicembre) in alcuni luoghi). Ci penserò un po 'di più su questo.

Spero che questo possa essere d'aiuto.

— Candamir
fonte