Utilizzo di strumenti di apprendimento automatico standard su dati censurati a sinistra

Sto sviluppando un'applicazione di previsione il cui scopo è consentire a un importatore di prevedere la domanda per i suoi prodotti dalla sua rete di distributori di clienti. I dati sulle vendite sono un buon indicatore della domanda, purché vi sia un inventario adeguato per soddisfare la domanda. Tuttavia, quando l'inventario viene ridotto a zero (la situazione che stiamo cercando di aiutare i nostri clienti a evitare), non sappiamo molto da quando abbiamo perso l'obiettivo. Quante vendite avrebbe fatto il cliente se avesse avuto forniture sufficienti? Gli approcci ML standard basati sulla regressione che utilizzano Sales come semplice variabile target produrranno stime incoerenti della relazione tra tempo, variabili descrittive e domanda.

La modellazione Tobit è il modo più ovvio per affrontare il problema: http://en.wikipedia.org/wiki/Tobit_model . Mi chiedo adattamenti ML di foreste casuali, GBMS, SVM e reti neurali che rappresentano anche una struttura censurata per mancini dei dati.

In breve, come posso applicare gli strumenti di apprendimento automatico ai dati di regressione censurati a sinistra per ottenere stime coerenti delle relazioni tra le mie variabili dipendenti e indipendenti? La prima preferenza sarebbe per le soluzioni disponibili in R, seguite da Python.

Saluti,

Aaron

r regression machine-learning censoring

— Aaron
fonte

Mi piacerebbe vedere una risposta a scikit-learn.

— Trascina l'

In R puoi usare cran.r-project.org/web/packages/censReg/censReg.pdf . Secondo secondo @tobip su scikit-learn in Python

— Adrian,

In breve, come posso applicare gli strumenti di apprendimento automatico ai dati di regressione censurati a sinistra per ottenere stime coerenti delle relazioni tra le mie variabili dipendenti e indipendenti?

Se riesci a scrivere una probabilità e capovolgere il segno in meno, hai una funzione di perdita che può essere utilizzata per molti modelli di apprendimento automatico. Nel potenziamento del gradiente questo è comunemente indicato come potenziamento del modello . Vedi ad esempio, Algoritmi di potenziamento: regolarizzazione, previsione e adattamento del modello .

Come esempio con il modello Tobit, vedere Modelli di tabacco potenziati dall'albero del gradiente per la previsione predefinita . Il metodo dovrebbe essere disponibile con il ramo scikit-learn menzionato nel documento.

La stessa idea viene utilizzata per i dati censurati a destra, ad es. I pacchetti gbme mboostin R per i dati censurati a destra.

$L2$

— Benjamin Christoffersen
fonte