Sto lavorando allo sviluppo di un modello per prevedere le vendite totali di un prodotto. Ho circa un anno e mezzo di dati sulle prenotazioni, quindi potrei fare un'analisi standard delle serie temporali. Tuttavia, ho anche molti dati su ogni "opportunità" (potenziale vendita) che è stata chiusa o persa. Le "opportunità" vengono fatte avanzare lungo le fasi di un oleodotto fino a quando non vengono chiuse o perse; hanno anche dati associati sul potenziale acquirente, addetto alle vendite, cronologia delle interazioni, industria, dimensione stimata delle prenotazioni, ecc.
Il mio obiettivo è in definitiva prevedere le prenotazioni totali, ma voglio tenere conto di tutte queste informazioni sulle attuali "opportunità" che sono la vera "causa principale" delle prenotazioni.
Un'idea che ho è quella di utilizzare due diversi modelli in serie come segue:
Usa le "opportunità" storiche per costruire un modello che preveda le prenotazioni derivanti da una "opportunità" individuale (probabilmente per questo passo utilizzerei foreste casuali o addirittura una vecchia regressione lineare semplice).
Utilizzare il modello da 1 per prevedere le prenotazioni stimate di tutte le "opportunità" attualmente in corso, quindi sommare tali stime in base al mese in cui è stata creata ciascuna "opportunità".
Utilizzare un modello di serie temporale (possibilmente ARIMA?), Utilizzando i dati delle serie storiche storiche mensili di 1,5 anni E le prenotazioni totali previste (utilizzando il modello da 1) per tutte le "opportunità" create in quel mese.
Concesso, ci sarebbe un ritardo nelle opportunità di conversione in prenotazioni effettive, ma il modello di serie storiche dovrebbe essere in grado di gestire il ritardo.
Come suona? Ho letto molto sulle serie storiche e predicendo le vendite, e da quello che posso dire questo è un approccio un po 'unico. Pertanto apprezzerei molto qualsiasi feedback!