Voglio indagare sul comportamento di determinazione dei prezzi delle compagnie aeree, in particolare su come le compagnie aeree reagiscono ai prezzi dei concorrenti.
Come direi che la mia conoscenza di analisi più complesse è piuttosto limitata, ho fatto principalmente tutti i metodi di base per raccogliere una visione generale dei dati. Ciò include grafici semplici che aiutano già a identificare modelli simili. Sto anche usando SAS Enterprise 9.4.
Tuttavia sto cercando un approccio più basato sui numeri.
Set di dati
Il set di dati (auto) raccolti che sto usando contiene circa 54.000 tariffe. Tutte le tariffe sono state raccolte in una finestra temporale di 60 giorni, su base giornaliera (ogni notte alle 00:00).
Pertanto, ogni tariffa entro tale intervallo di tempo si verifica volte in base alla disponibilità della tariffa e alla data di partenza del volo, quando viene superata dalla data di raccolta della tariffa. (Non è possibile riscuotere una tariffa per un volo quando la data di partenza del volo è in passato)
Il non formattato che assomiglia sostanzialmente a questo: (dati falsi)
+--------------------+-----------+--------------------+--------------------------+---------------+
| requestDate | price| tripStartDeparture | tripDestinationDeparture | flightCarrier |
+--------------------+-----------+--------------------+--------------------------+---------------+
| 14APR2015:00:00:00 | 725.32 | 16APR2015:10:50:02 | 23APR2015:21:55:04 | XA |
+--------------------+-----------+--------------------+--------------------------+---------------+
| 14APR2015:00:00:00 | 966.32 | 16APR2015:13:20:02 | 23APR2015:19:00:04 | XY |
+--------------------+-----------+--------------------+--------------------------+---------------+
| 14APR2015:00:00:00 | 915.32 | 16APR2015:13:20:02 | 23APR2015:21:55:04 | XH |
+--------------------+-----------+--------------------+--------------------------+---------------+
"DaysBeforeDeparture" viene calcolato tramite dove
- I e intervallo (giorni prima della partenza)
- s & data della tariffa (partenza del volo)
- c & data di raccolta della tariffa
Ecco un esempio di set di dati raggruppati di I (DaysBeforeDep.) (Dati falsi!):
+-----------------+------------------+------------------+------------------+------------------+
| DaysBefDeparture | AVG_of_sale | MIN_of_sale | MAX_of_sale | operatingCarrier |
+-----------------+------------------+------------------+------------------+------------------+
| 0 | 880.68 | 477.99 | 2,245.23 | DL |
+-----------------+------------------+------------------+------------------+------------------+
| 0 | 904.89 | 477.99 | 2,534.55 | DL |
+-----------------+------------------+------------------+------------------+------------------+
| 0 | 1,044.39 | 920.99 | 2,119.09 | LH |
+-----------------+------------------+------------------+------------------+------------------+
Quello che mi è venuto in mente finora
Guardando i grafici a linee posso già stimare che diverse linee avranno un alto fattore di correlazione. Quindi, ho provato ad usare prima l'analisi di correlazione sui dati raggruppati. Ma è quello il modo corretto? Fondamentalmente provo ora a fare correlazioni sulle medie piuttosto che sui singoli prezzi? C'è un altro modo?
Non sono sicuro di quale modello di regressione si adatti qui, poiché i prezzi non si muovono in alcuna forma lineare e appaiono non lineari. Avrei bisogno di adattare un modello a ciascuno degli sviluppi di prezzo di una compagnia aerea
PS: questo è un lungo muro di testo. Se ho bisogno di chiarire qualcosa fammi sapere. Sono nuovo di questo sub.
Qualcuno ha un indizio? :-)