Supponiamo di prevedere le vendite di un negozio e che i miei dati di formazione abbiano due serie di funzionalità:
- Uno sulle vendite del negozio con le date (il campo "Negozio" non è unico)
- Uno sui tipi di negozi (il campo "Store" è unico qui)
Quindi la matrice sarebbe simile a questa:
+-------+-----------+------------+---------+-----------+------+-------+--------------+
| Store | DayOfWeek | Date | Sales | Customers | Open | Promo | StateHoliday |
+-------+-----------+------------+---------+-----------+------+-------+--------------+
| 1 | 5 | 2015-07-31 | 5263.0 | 555.0 | 1 | 1 | 0 |
| 2 | 5 | 2015-07-31 | 6064.0 | 625.0 | 1 | 1 | 0 |
| 3 | 5 | 2015-07-31 | 8314.0 | 821.0 | 1 | 1 | 0 |
| 4 | 5 | 2015-07-31 | 13995.0 | 1498.0 | 1 | 1 | 0 |
| 5 | 5 | 2015-07-31 | 4822.0 | 559.0 | 1 | 1 | 0 |
| 6 | 5 | 2015-07-31 | 5651.0 | 589.0 | 1 | 1 | 0 |
| 7 | 5 | 2015-07-31 | 15344.0 | 1414.0 | 1 | 1 | 0 |
| 8 | 5 | 2015-07-31 | 8492.0 | 833.0 | 1 | 1 | 0 |
| 9 | 5 | 2015-07-31 | 8565.0 | 687.0 | 1 | 1 | 0 |
| 10 | 5 | 2015-07-31 | 7185.0 | 681.0 | 1 | 1 | 0 |
+-------+-----------+------------+---------+-----------+------+-------+--------------+
[986159 rows x 4 columns]
e
+-------+-----------+------------+---------------------+
| Store | StoreType | Assortment | CompetitionDistance |
+-------+-----------+------------+---------------------+
| 1 | c | a | 1270 |
| 2 | a | a | 570 |
| 3 | a | a | 14130 |
| 4 | c | c | 620 |
| 5 | a | a | 29910 |
| 6 | a | a | 310 |
| 7 | a | c | 24000 |
| 8 | a | a | 7520 |
| 9 | a | c | 2030 |
| 10 | a | a | 3160 |
+-------+-----------+------------+---------------------+
[1115 rows x 4 columns]
La seconda matrice descrive il tipo di negozio, i gruppi di assortimento di articoli venduti da ciascuno di essi e la distanza dal negozio della concorrenza più vicino.
Ma nei miei dati di test, ho solo informazioni nella prima matrice senza i campi Customers
e Sales
. L'obiettivo è quello di prevedere il campo di vendita dato il
- Memorizzare
- Giorno della settimana
- Data
- Apri (se il negozio è aperto)
- Promo (se il negozio ha una promozione)
- StateHoliday (sia che si tratti di una festa di stato)
Posso facilmente addestrare un classificatore basato sui campi puntati sopra per prevedere, Sales
ma come posso utilizzare la seconda matrice nei miei dati di allenamento che non vorrei ottenere nei dati di test?
È logico supporre che la seconda matrice relativa ai tipi di Store sia statica e che possa facilmente unirla ai dati di test?
Cosa succede se ci sono buchi nel mio set di funzionalità dei dati di test, diciamo per alcune righe nei dati di test, non ho i valori "Promo".
Customers
dati sono molto specifici per la concorrenza. Se non sei sicuro di come gestire i valori mancanti in generale per ML (come i Promo
valori vuoti ), potrebbe valere la pena di cambiare questa domanda per riguardare solo quel problema. Ci sono già alcune risposte al riguardo su questo sito, ad esempio datascience.stackexchange.com/questions/8322/…