Adeguamenti alla previsione (regressione lineare)


11

Divulgazione completa: non sono uno statistico, né pretendo di esserlo. Sono un modesto amministratore IT. Per favore, sii gentile con me. :)

Sono responsabile della raccolta e della previsione dell'utilizzo dell'archiviazione su disco per la nostra azienda. Raccogliamo il nostro utilizzo dello storage mensilmente e utilizziamo una semplice regressione lineare di dodici mesi per le previsioni (in altre parole, quando si effettua una proiezione vengono considerati solo i dodici mesi precedenti di dati). Utilizziamo queste informazioni per l'allocazione e la pianificazione delle spese in conto capitale, ad esempio "In base a questo modello, dovremo acquistare x quantità se lo stoccaggio entro y mesi per soddisfare le nostre esigenze". Tutto funziona abbastanza bene per soddisfare le nostre esigenze.

Periodicamente, abbiamo grandi movimenti una tantum nei nostri numeri che gettano via le previsioni. Ad esempio, qualcuno trova 500 GB di vecchi backup che non sono più necessari e li elimina. Buon per loro per il recupero dello spazio! Tuttavia, le nostre previsioni sono ora distorte da questo grande calo in un mese. Abbiamo sempre ammesso che un calo come questo impiega 9-10 mesi per uscire dai modelli, ma può essere molto lungo se stiamo entrando nella stagione di pianificazione delle spese in conto capitale.

Mi chiedo se esiste un modo per gestire queste variazioni una tantum in modo tale che i valori previsti non vengano influenzati tanto (ad esempio, la pendenza della linea non cambia in modo così drammatico), ma vengono presi in considerazione (ad es. una modifica una tantum del valore y associato a un determinato momento nel tempo). I nostri primi tentativi di affrontarlo hanno prodotto alcuni brutti risultati (ad es. Curve di crescita esponenziale). Eseguiamo tutta la nostra elaborazione in SQL Server, se ciò è importante.


Ottima domanda Solo un rapido chiarimento. Vorresti prevedere questi eventi o, una volta accaduti, adattare le previsioni del modello date le tue nuove informazioni?
Matthew Drury,

1
Bene, non è chiaro se stai cercando di "appianare" questi eventi rari come l'esempio da 500 GB in modo che non influiscano tanto sui tuoi risultati o se stai cercando di renderne conto di più poiché vuoi catturare quando le regolazioni delle puttane vengono archiviate sono fatti? La differenza è sottile: nel primo, si desidera quasi ignorare il nuovo punto (evento raro), ma nel secondo, si desidera enfatizzare il punto (evento raro). Se è la prima, la regressione robusta è probabilmente un metodo semplice per te poiché stai già utilizzando la regressione lineare. Vedi qui: ats.ucla.edu/stat/r/dae/rreg.htm
StatStudent

Inoltre, usi qualche software per fare le tue previsioni e usi intervalli di confidenza?
StatStudent,

Posso aggiungere un aggiustamento dopo il fatto. In effetti, la maggior parte delle volte non saprò una grande deviazione fino a quando non guarderò i numeri del mese successivo e vedrò un grande cambiamento. Non sto usando alcun software per fare le previsioni; solo una procedura memorizzata in SQL Server per calcolare i miei valori di regressione.
sbrown,

Reazioni rapide: (a) Probabilmente prima adatterei un AR (1) molto semplice alle modifiche nell'uso del disco di registro? Fondamentalmente stimeresti un tasso di crescita a lungo termine nell'uso del disco e quanto velocemente il tasso di crescita nell'uso del disco ritorna a quella tendenza dopo uno shock. (aa) È possibile utilizzare anche altri dati e adattare un VAR (autoregressione vettoriale). (b) il rilascio di tutti i dati> 12 mesi potrebbe non essere la cosa ottimale da fare. (c) OLS regolare minimizza la somma dei quadrati. È possibile utilizzare una diversa funzione di penalità (ad es. Huber) che è più robusta per gli outlier.
Matthew Gunn,

Risposte:


0

Ecco un semplice suggerimento. Non so se funziona per te e forse avrei dovuto farlo come commento, ma sembra che tu abbia bisogno di più privilegi per fare un commento che per fare una risposta.

Se ho capito bene, le cifre che stai utilizzando sono le quantità di memoria che stai utilizzando ogni mese. Probabilmente questi aumentano abitualmente e vuoi prevedere quale sarà l'importo in futuro in futuro se le tendenze continueranno. Una volta che ti rendi conto che il tuo grande cambiamento è avvenuto (ad esempio che sono stati rilasciati 500 GB) puoi tornare indietro e modificare le cifre dei mesi precedenti (ad esempio eliminare 500 GB da tutti)? Fondamentalmente quello che faresti è adattare le cifre dei mesi precedenti a ciò che avrebbero dovuto essere, se tu sapessi allora cosa sai adesso.

Ovviamente non lo consiglio a meno che non ti assicuri di poter tornare alle vecchie figure. Ma la previsione che vuoi fare sembra che potrebbe anche essere fatta in Excel, nel qual caso puoi avere tutte le versioni che vuoi.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.