Supponiamo di avere poco più di 20.000 serie temporali mensili che vanno dal gennaio 2005 al dicembre 11. Ognuno di questi rappresenta i dati di vendita globali per un prodotto diverso. E se invece di calcolare le previsioni per ognuno di loro, volessi concentrarmi solo su un numero limitato di prodotti che "contano davvero"?
Potrei classificare quei prodotti in base al totale delle entrate annuali e tagliare l'elenco usando il Pareto classico. Tuttavia mi sembra che, sebbene non contribuiscano molto ai profitti, alcuni prodotti sono così facili da prevedere che lasciarli fuori sarebbe un cattivo giudizio. Un prodotto che ha venduto 50 $ ogni mese negli ultimi 10 anni potrebbe non sembrare molto, ma richiede così poco sforzo per generare previsioni sulle vendite future che potrei anche farlo.
Quindi diciamo che divido i miei prodotti in quattro categorie: entrate elevate / previsioni facili - entrate basse / previsioni facili - entrate elevate / previsioni difficili - entrate basse / previsioni difficili.
Penso che sarebbe ragionevole lasciarsi alle spalle solo quelle serie storiche appartenenti al quarto gruppo. Ma come posso valutare esattamente la "previsione"?
Il coefficiente di variazione sembra un buon punto di partenza (ricordo anche di aver visto qualche articolo a riguardo qualche tempo fa). Ma cosa succede se le mie serie storiche mostrano stagionalità / cambiamenti di livello / effetti del calendario / forti tendenze?
Immagino che dovrei basare la mia valutazione solo sulla variabilità della componente casuale e non su quella dei dati "grezzi". Oppure mi sfugge qualcosa?
Qualcuno si è imbattuto in un problema simile prima? Come fareste ragazzi?
Come sempre, qualsiasi aiuto è molto apprezzato!