Divulgazione completa: non sono uno statistico, né pretendo di esserlo. Sono un modesto amministratore IT. Per favore, sii gentile con me. :)
Sono responsabile della raccolta e della previsione dell'utilizzo dell'archiviazione su disco per la nostra azienda. Raccogliamo il nostro utilizzo dello storage mensilmente e utilizziamo una semplice regressione lineare di dodici mesi per le previsioni (in altre parole, quando si effettua una proiezione vengono considerati solo i dodici mesi precedenti di dati). Utilizziamo queste informazioni per l'allocazione e la pianificazione delle spese in conto capitale, ad esempio "In base a questo modello, dovremo acquistare x quantità se lo stoccaggio entro y mesi per soddisfare le nostre esigenze". Tutto funziona abbastanza bene per soddisfare le nostre esigenze.
Periodicamente, abbiamo grandi movimenti una tantum nei nostri numeri che gettano via le previsioni. Ad esempio, qualcuno trova 500 GB di vecchi backup che non sono più necessari e li elimina. Buon per loro per il recupero dello spazio! Tuttavia, le nostre previsioni sono ora distorte da questo grande calo in un mese. Abbiamo sempre ammesso che un calo come questo impiega 9-10 mesi per uscire dai modelli, ma può essere molto lungo se stiamo entrando nella stagione di pianificazione delle spese in conto capitale.
Mi chiedo se esiste un modo per gestire queste variazioni una tantum in modo tale che i valori previsti non vengano influenzati tanto (ad esempio, la pendenza della linea non cambia in modo così drammatico), ma vengono presi in considerazione (ad es. una modifica una tantum del valore y associato a un determinato momento nel tempo). I nostri primi tentativi di affrontarlo hanno prodotto alcuni brutti risultati (ad es. Curve di crescita esponenziale). Eseguiamo tutta la nostra elaborazione in SQL Server, se ciò è importante.