Personalmente non definirei questa "pulizia dei dati". Penso alla pulizia dei dati più nel senso della modifica dei dati: a eliminare le incongruenze nel set di dati (ad esempio, un record ha riportato un'età di 1000 anni o una persona di 4 anni è un genitore single, ecc.).
La presenza di un effetto reale nei tuoi dati non lo rende "disordinato" (al contrario, la presenza di effetti reali lo renderebbe ricco), sebbene possa rendere più coinvolto il tuo compito matematico. Vorrei suggerire che i dati vengano "puliti" in questo modo se è l'unico modo possibile per ottenere una previsione. Se esiste un modo fattibile che non getta via le informazioni, allora usale.
Sembra che potresti trarre beneficio da una sorta di analisi ciclica, dato che dici che questo effetto si verifica periodicamente (un po 'come un "ciclo economico").
Dal mio punto di vista, se stai cercando di prevedere qualcosa, rimuovere un effetto reale da quella fonte non può che peggiorare le tue previsioni. Questo perché hai effettivamente "gettato via" le stesse informazioni che desideri prevedere!
L'altro punto è che può essere difficile determinare la quantità di morti causata dall'epidemia e quanto è stato causato dalle normali fluttuazioni.
Nella terminologia statistica, l'epidemia suona così, dal tuo punto di vista, è una "seccatura" per ciò che realmente vuoi analizzare. Quindi non ti interessa particolarmente, ma devi in qualche modo tenerne conto nella tua analisi. Un modo "rapido e sporco" per farlo in un contesto di regressione è quello di includere un indicatore per gli anni / i periodi epidemici come variabile regressore. Ciò fornirà una stima media dell'effetto delle epidemie (e presuppone implicitamente che l'effetto sia lo stesso per ogni epidemia). Tuttavia, questo approccio funziona solo per descrivere l'effetto, perché nella previsione la tua variabile di regressione è sconosciuta (non sai quali periodi in futuro saranno epidemici).
Un altro modo di spiegare l'epidemia è usare un modello di miscela con due componenti: un modello per la parte epidemica e un modello per la parte "ordinaria". Il modello procede quindi in due fasi: 1) classifica un periodo come epidemico o normale, quindi 2) applica il modello a cui è stato classificato.