Come modellare i prezzi?


15

Ho posto questa domanda sul sito di matemexics stackexchange e mi è stato consigliato di fare qui.

Sto lavorando a un progetto di hobby e avrei bisogno di aiuto per il seguente problema.

Un po 'di contesto

Diciamo che esiste una raccolta di articoli con una descrizione delle caratteristiche e un prezzo. Immagina un elenco di auto e prezzi. Tutte le auto hanno un elenco di caratteristiche, ad esempio dimensioni del motore, colore, potenza del cavallo, modello, anno ecc. Per ogni marca, qualcosa del genere:

Ford:
V8, green, manual, 200hp, 2007, $200
V6, red, automatic, 140hp, 2010, $300
V6, blue, manual, 140hp, 2005, $100
...

Andando ancora oltre, l'elenco delle auto con i prezzi è pubblicato con un certo intervallo di tempo, il che significa che abbiamo accesso ai dati storici sui prezzi. Potrebbe non includere sempre esattamente le stesse macchine.

Problema

Vorrei capire come modellare i prezzi di qualsiasi auto in base a queste informazioni di base, soprattutto le auto non presenti nell'elenco iniziale.

Ford, v6, red, automatic, 130hp, 2009

Per la macchina sopra, è quasi la stessa di una nella lista, leggermente diversa per potenza e anno. Per valutare questo, cosa è necessario?

Quello che sto cercando è qualcosa di pratico e semplice, ma vorrei anche conoscere approcci più complessi su come modellare qualcosa di simile.

Quello che ho provato

Ecco cosa ho sperimentato finora:

1) utilizzo dei dati storici per la ricerca dell'auto X. Se non trovato, nessun prezzo. Questo è ovviamente molto limitato e si può usare questo solo in combinazione con un certo decadimento nel tempo per modificare i prezzi delle auto conosciute nel tempo.

2) utilizzando uno schema di ponderazione delle caratteristiche dell'auto insieme a un'auto campione a prezzo. Fondamentalmente che esiste un prezzo base e le caratteristiche lo alterano con un certo fattore. In base a ciò, viene derivato il prezzo di qualsiasi auto.

Il primo ha dimostrato di non essere sufficiente e il secondo ha dimostrato di non essere sempre corretto e forse non avrei avuto l'approccio migliore per l'uso dei pesi. Anche questo sembra essere un po 'pesante nel mantenere i pesi, quindi è per questo che ho pensato che forse c'è un modo per usare i dati storici come statistiche in qualche modo per ottenere pesi o per ottenere qualcos'altro. Non so da dove cominciare.

Altri aspetti importanti

  • integrare in alcuni progetti software che ho. O usando le librerie esistenti o scrivendo l'algoritmo me stesso.
  • ricalcolo rapido all'arrivo di nuovi dati storici.

Qualche suggerimento su come affrontare un problema come questo? Tutte le idee sono più che benvenute.

Grazie mille in anticipo e non vedo l'ora di leggere i tuoi suggerimenti!

Risposte:


11

"Pratica" e "semplice" suggeriscono la regressione dei minimi quadrati . È facile da configurare, facile da usare con un sacco di software (R, Excel, Mathematica, qualsiasi pacchetto statistico), facile da interpretare e può essere esteso in molti modi a seconda della precisione che vuoi essere e della tua durezza voglia di lavorare.

Questo approccio è essenzialmente il tuo "schema di ponderazione" (2), ma trova facilmente i pesi, garantisce la massima precisione possibile ed è facile e veloce da aggiornare. Esistono moltissime librerie per eseguire calcoli dei minimi quadrati.

Aiuterà a includere non solo le variabili che hai elencato - tipo di motore, potenza, ecc. - ma anche l' età dell'auto. Inoltre, assicurati di adeguare i prezzi per l'inflazione.


Venduto! Sembra esattamente quello che sto cercando! Dato che sono tutto nuovo a questo proposito, ho difficoltà a confrontare i suggerimenti, quindi mi chiedo come sarebbe la regressione dei minimi quadrati rispetto alla regressione multipla e al "prezzo edonico". Questi sono i suggerimenti che ho ricevuto nel sito di matematica dove inizialmente ho pubblicato. Cosa sto risolvendo usando, ad esempio, la regressione dei minimi quadrati? Fondamentalmente, c'è qualcosa di cui devo essere consapevole quando uso questo approccio?
Murrekatt,

anche grazie per questo suggerimento. Sembra molto buono Dovrò leggere di più per avere un'idea di come posso iniziare a vedere come usarlo.
Murrekatt,

3
Voglio riconoscere ed esprimere il mio accordo con le avvertenze pubblicate da @mpiktas e @dimitrij celov. Le analisi dei prezzi possono essere - e in molti casi dovrebbero essere - complesse come i sistemi economici di cui fanno parte. Tuttavia, a causa dell'applicazione prevista (un hobby) e delle limitazioni chiaramente segnalate nelle capacità dell'OP per la modellazione statistica, dovremmo attribuire grande valore alla semplicità, alla facilità d'uso e all'interpretazione. Ovviamente qualcuno che non ha ancora dimestichezza con i minimi quadrati non salterà subito dentro e inizierà a creare modelli econometrici completi.
whuber

5

Sono d'accordo con @whuber, che la regressione lineare è una strada da percorrere, ma occorre prestare attenzione nell'interpretazione dei risultati. Il problema è che in economia il prezzo è sempre legato alla domanda. Se la domanda sale, i prezzi salgono, se la domanda scende, i prezzi scendono. Quindi il prezzo è determinato dalla domanda e in cambio la domanda è determinata dal prezzo. Quindi, se modelliamo il prezzo come una regressione da alcuni attributi senza la domanda, c'è un reale pericolo che le stime di regressione siano errate a causa di una distorsione da variabile omessa .


@mpiktas: grazie. Capisco cosa intendi. Era qualcosa a cui stavo pensando, ma non sapevo esattamente come porre o aggiungere alla domanda. Come si fa a gestire ciò che si spiega? Si tratta di un problema che è separato e mentre scrivi per essere preso in considerazione nell'interpretazione dei risultati o è integrato in altri approcci e non fa parte della regressione dei minimi quadrati? Non sono sicuro di come formulare me stesso, ma ciò che intendo è che ci sono approcci che tengono conto di ciò e altri che non lo fanno? Ciò significa che per il "non" dobbiamo interpretare i risultati?
Murrekatt,

3
@murekatt, se non si dispone di dati aggiuntivi su richiesta, ma è necessario il modello per il prezzo, ci si occupa di questo prestando particolare attenzione. Ciò significa meno attenzione alla significatività statistica dei coefficienti, ma maggiore attenzione alle prestazioni di previsione. Essenzialmente ciò significa trattare la regressione come una scatola nera e usare le prestazioni di previsione del modello come misura della validità del modello. Questo significa usare la validazione incrociata, la divisione dei dati per addestrare e testare campioni, ecc.
mpiktas,

@mpiktas: cosa intendi con "dati aggiuntivi"? Potresti per favore fare un esempio di questo nel contesto dell'auto?
Murrekatt,

1
@murrekatt, guarda la fine della risposta Dmitrij aggiornata. I dati della domanda sono importanti, quindi se hai quante macchine sono state vendute con un determinato prezzo, questo sarebbe di grande aiuto. Inoltre, se disponi di dati su come le variazioni di prezzo di una determinata auto con caratteristiche fisse dovrebbero riflettersi anche nel tuo modello
mpiktas,

1
@murekatt, in linea di principio sì. Penso che devi iniziare in piccolo e aggiungere funzionalità aggiuntive in seguito. I risultati iniziali ti diranno quale direzione prendere ulteriormente.
mpiktas,

4

Quello che sto cercando è qualcosa di pratico e semplice, ma vorrei anche conoscere approcci più complessi su come modellare qualcosa di simile.

Dopo una sorta di discussione, ecco la mia visione completa delle cose

Il problema

Obiettivo: capire come valutare le auto in modo migliore

Contesto: nel loro processo decisionale le persone risolvono diverse domande: ho bisogno di un'auto, se lo faccio, quali attributi preferisco di più (incluso il prezzo, perché, essendo razionale, vorrei avere un'auto con il miglior rapporto qualità / prezzo) , confronta il numero di attributi tra macchine diverse e scegli di valutarle congiuntamente .

Dal punto di vista del venditore, vorrei impostare il prezzo più alto possibile e vendere l'auto il più rapidamente possibile. Quindi, se imposto un prezzo troppo alto e aspetto mesi, potrebbe essere considerato non richiesto sul mercato e contrassegnato con 0 rispetto agli insiemi di attributi molto richiesti.

Osservazioni: affari reali che mettono in relazione gli attributi di una determinata auto con il prezzo stabilito nel processo di contrattazione (per quanto riguarda l'osservazione precedente, è importante sapere quanto tempo ci vuole per impostare l'affare).

Pro: osservi le cose che sono state effettivamente acquistate sul mercato, quindi non indovini se esiste una persona con un prezzo di prenotazione abbastanza alto che vuole acquistare una determinata auto

Contro:

  1. la tua ipotesi è che il mercato sia efficiente, il che significa che i prezzi che osservi sono vicini all'equilibrio
  2. ignori le varianti degli attributi della macchina che non sono state acquistate o impiegano troppo tempo per impostare l'affare, il che significa che le tue intuizioni sono distorte , quindi effettivamente lavori con modelli variabili latenti
  3. Osservando i dati per lungo tempo è necessario sgonfiarli, anche se l'inclusione dell'età dell'auto lo compensa in parte.

Metodi di soluzione

Il primo, come suggerito da Whuber, è il classico modello di regressione dei minimi quadrati

Professionisti:

  1. davvero la soluzione più semplice in quanto è il cavallo di lavoro di econometria

Contro:

  1. ignora che osservi le cose in modo incompleto ( variabili latenti )
  2. agisce come i regressori sono indipendenti l'uno dall'altro, quindi il modello di base ignora il fatto che potresti apprezzare la Ford blu in modo diverso dalla Mercedes blu , ma non è la somma dell'influenza marginale che proviene dal blu e dalla Ford

In caso di regressione classica, poiché non si è limitati nei gradi di libertà, provare anche termini di interazione diversi.

Pertanto la soluzione più complicata sarebbe il tobit o il modello di Heckman , potresti consultare AC Cameron e PK Trivedi Microeconometrics: metodi e applicazioni per maggiori dettagli sui metodi di base.

Professionisti:

  1. separi il fatto che alle persone potrebbero non piacere affatto alcuni set di attributi, o che alcuni set di attributi hanno una piccola probabilità di essere acquistati dall'impostazione del prezzo effettivo
  2. i tuoi risultati non sono distorti (o almeno meno rispetto al primo caso)
  3. nel caso di Heckman separa le ragioni che motivano l'acquisto della particolare auto dalla decisione sui prezzi di quanto vorrei pagare per questa vettura: la prima è influenzata dalle preferenze individuali, la seconda dal vincolo di budget

Contro:

  1. Entrambi i modelli sono più avidi di dati , vale a dire che dobbiamo osservare la lunghezza del tempo tra la domanda e l'offerta per equalizzare (se è abbastanza breve mettere 1, altrimenti 0) o osservare gli insiemi che sono stati ignorati dal mercato

E, infine, se sei semplicemente interessato a come il prezzo influenza la probabilità di essere acquistato, potresti lavorare con alcuni tipi di modelli logit .

Abbiamo concordato che l' analisi congiunta non è adatta qui, perché si hanno contesti e osservazioni diversi.

In bocca al lupo.


Esattamente come applicheresti un modello logit multinomiale, la cui variabile dipendente è categorica, ai prezzi che non sono categorici?
whuber

@Dmitrij Celov: grazie per il tuo suggerimento. Proverò a rispondere alle tue domande. 1) Nessun prezzo disponibile, questo è l'ignoto a cui vorrei rispondere guardando auto simili. 2) Non so quale variabile pesa di più: questo speravo di ottenere. 3) Vorrei basarmi su un elenco di auto con caratteristiche e prezzi in grado di valutare qualsiasi auto con qualsiasi funzione.
Murrekatt,

Kj-1j10P(yio=1|yj=0)=11+e-β'(Xio-Xj)yioyj

@murrekatt: 1) Quindi cerchi solo gli attributi più "preziosi"? 2) I parametri stimati di Logit sono interpretati in modo gradevole come quote e rapporti di probabilità, ma il logit multinomiale ha una caratteristica debole nota come indipendenza da alternative irrilevanti 3) Potete essere sicuri che i prezzi elencati siano rilevanti, cioè che le auto siano state effettivamente acquistate? @whuber: la semplice regressione funziona bene, se la dipendenza è il prezzo, ma di nuovo quale prezzo? pubblicato dove? o è la transazione effettiva?
Dmitrij Celov,

2
@Dimitrij Il prezzo non è una variabile indipendente: è la variabile dipendente : "Vorrei capire come modellare i prezzi per qualsiasi auto in base a queste informazioni di base." Temo che con questa incomprensione potresti portare @murrekatt molto lontano.
whuber

4

Sembra un problema di regressione lineare anche a me, ma per quanto riguarda K vicini più vicini KNN . Puoi trovare una formula di distanza tra ogni auto e calcolare il prezzo come la media tra la K (diciamo 3) più vicina. Una formula di distanza può essere basata su euclidi come la differenza di cilindri più la differenza di porte, più la differenza di potenza e così via.

Se vai con regressione lineare, suggerirei un paio di cose:

  • Scala il valore del dollaro fino ai giorni nostri per tenere conto dell'inflazione.
  • Dividi i tuoi dati in epoche. Scommetto che scoprirai che avrai bisogno di un modello per pre ww2 e post ww2 per esempio. Questo è solo un sospetto.
  • Convalida in croce il tuo modello per evitare un eccesso di adattamento. Dividi i tuoi dati in 5 blocchi. Allenati sul 4 e urta il modello sul 5 ° pezzo. Riassumi gli errori, risciacqua, ripeti per gli altri pezzi.

Un'altra idea è quella di creare un ibrido tra i modelli. Usa regresion e KNN entrambi come punti dati e crea il prezzo finale come media ponderata o qualcosa del genere.


3

Oltre a ciò che è stato detto, e non molto diverso da alcuni dei suggerimenti già formulati, potresti voler dare un'occhiata alla vasta letteratura sui modelli di prezzi edonici . Ciò a cui si riduce è un modello di regressione che cerca di spiegare il prezzo di un bene composito in funzione dei suoi attributi.

Ciò ti permetterebbe di valutare un'auto conoscendone gli attributi (potenza del cavallo, dimensioni, marca, ecc.), Anche se un campione esattamente simile di attributi non è presente nel tuo campione. È un approccio molto popolare per la valutazione di attività essenzialmente non replicabili, come le proprietà dello stato reale. Se cerchi Google per "modelli edonici" troverai molti riferimenti ed esempi.


@F. Tusell: era una buona descrizione. L'ho già confuso insieme da altri post, ma questo ha riassunto bene le cose per un principiante come me.
Murrekatt,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.