Sto sviluppando un'applicazione di previsione il cui scopo è consentire a un importatore di prevedere la domanda per i suoi prodotti dalla sua rete di distributori di clienti. I dati sulle vendite sono un buon indicatore della domanda, purché vi sia un inventario adeguato per soddisfare la domanda. Tuttavia, quando l'inventario viene ridotto a zero (la situazione che stiamo cercando di aiutare i nostri clienti a evitare), non sappiamo molto da quando abbiamo perso l'obiettivo. Quante vendite avrebbe fatto il cliente se avesse avuto forniture sufficienti? Gli approcci ML standard basati sulla regressione che utilizzano Sales come semplice variabile target produrranno stime incoerenti della relazione tra tempo, variabili descrittive e domanda.
La modellazione Tobit è il modo più ovvio per affrontare il problema: http://en.wikipedia.org/wiki/Tobit_model . Mi chiedo adattamenti ML di foreste casuali, GBMS, SVM e reti neurali che rappresentano anche una struttura censurata per mancini dei dati.
In breve, come posso applicare gli strumenti di apprendimento automatico ai dati di regressione censurati a sinistra per ottenere stime coerenti delle relazioni tra le mie variabili dipendenti e indipendenti? La prima preferenza sarebbe per le soluzioni disponibili in R, seguite da Python.
Saluti,
Aaron