Principiante dell'analisi con Python, quindi per favore sii gentile :-) Non sono riuscito a trovare la risposta a questa domanda - mi scuso se ha già risposto altrove in un formato diverso.
Ho un set di dati di dati di transazione per un punto vendita. Le variabili insieme alla spiegazione sono:
- sezione: la sezione del negozio, una str;
- prod_name: nome del prodotto, uno str;
- ricevuta: il numero della fattura, un int;
- cassiere, il numero della cassiera, un int;
- costo: il costo dell'articolo, un galleggiante;
- data, nel formato MM / GG / AA, una str;
- ora, nel formato HH: MM: SS, a str;
La ricevuta ha lo stesso valore per tutti i prodotti acquistati in una singola transazione, quindi può essere utilizzata per determinare il numero medio di acquisti effettuati in una singola transazione.
Qual è il modo migliore per farlo? In sostanza, desidero utilizzare groupby()
per raggruppare la variabile ricevuta per le sue occorrenze identiche in modo da poter creare un istogramma.
Lavorare con i dati in un DataFrame Panda.
MODIFICARE:
Ecco alcuni dati di esempio con intestazione (nome_prodotto è in realtà un numero esadecimale):
section,prod_name,receipt,cashier,cost,date,time
electronics,b46f23e7,102856,5,70.50,05/20/15,9:08:20
womenswear,74558d0d,102857,8,20.00,05/20/15,9:12:46
womenswear,031f36b7,102857,8,30.00,05/20/15,9:12:47
menswear,1d52cd9d,102858,3,65.00,05/20/15,9:08:20
Da questo set di esempio mi aspetterei un istogramma della ricevuta che mostra due occorrenze della ricevuta 102857 (poiché quella persona ha acquistato due articoli in una transazione) e una ricorrenza rispettivamente della ricevuta 102856 e della ricevuta 102858. Nota: il mio set di dati non è enorme, circa 1 milione di file.