Ho posto questa domanda sul sito di matemexics stackexchange e mi è stato consigliato di fare qui.
Sto lavorando a un progetto di hobby e avrei bisogno di aiuto per il seguente problema.
Un po 'di contesto
Diciamo che esiste una raccolta di articoli con una descrizione delle caratteristiche e un prezzo. Immagina un elenco di auto e prezzi. Tutte le auto hanno un elenco di caratteristiche, ad esempio dimensioni del motore, colore, potenza del cavallo, modello, anno ecc. Per ogni marca, qualcosa del genere:
Ford:
V8, green, manual, 200hp, 2007, $200
V6, red, automatic, 140hp, 2010, $300
V6, blue, manual, 140hp, 2005, $100
...
Andando ancora oltre, l'elenco delle auto con i prezzi è pubblicato con un certo intervallo di tempo, il che significa che abbiamo accesso ai dati storici sui prezzi. Potrebbe non includere sempre esattamente le stesse macchine.
Problema
Vorrei capire come modellare i prezzi di qualsiasi auto in base a queste informazioni di base, soprattutto le auto non presenti nell'elenco iniziale.
Ford, v6, red, automatic, 130hp, 2009
Per la macchina sopra, è quasi la stessa di una nella lista, leggermente diversa per potenza e anno. Per valutare questo, cosa è necessario?
Quello che sto cercando è qualcosa di pratico e semplice, ma vorrei anche conoscere approcci più complessi su come modellare qualcosa di simile.
Quello che ho provato
Ecco cosa ho sperimentato finora:
1) utilizzo dei dati storici per la ricerca dell'auto X. Se non trovato, nessun prezzo. Questo è ovviamente molto limitato e si può usare questo solo in combinazione con un certo decadimento nel tempo per modificare i prezzi delle auto conosciute nel tempo.
2) utilizzando uno schema di ponderazione delle caratteristiche dell'auto insieme a un'auto campione a prezzo. Fondamentalmente che esiste un prezzo base e le caratteristiche lo alterano con un certo fattore. In base a ciò, viene derivato il prezzo di qualsiasi auto.
Il primo ha dimostrato di non essere sufficiente e il secondo ha dimostrato di non essere sempre corretto e forse non avrei avuto l'approccio migliore per l'uso dei pesi. Anche questo sembra essere un po 'pesante nel mantenere i pesi, quindi è per questo che ho pensato che forse c'è un modo per usare i dati storici come statistiche in qualche modo per ottenere pesi o per ottenere qualcos'altro. Non so da dove cominciare.
Altri aspetti importanti
- integrare in alcuni progetti software che ho. O usando le librerie esistenti o scrivendo l'algoritmo me stesso.
- ricalcolo rapido all'arrivo di nuovi dati storici.
Qualche suggerimento su come affrontare un problema come questo? Tutte le idee sono più che benvenute.
Grazie mille in anticipo e non vedo l'ora di leggere i tuoi suggerimenti!