Ho dati equivalenti a:
shopper_1 = ['beer', 'eggs', 'water',...]
shopper_2 = ['diapers', 'beer',...]
...
Vorrei fare alcune analisi su questo set di dati per ottenere una matrice di correlazione che avrebbe un'implicazione simile a: se hai acquistato x, è probabile che tu acquisti y.
Usando python (o forse tutto tranne MATLAB), come posso procedere? Alcune linee guida di base o indicazioni su dove dovrei cercare sarebbero di aiuto.
Grazie,
Modifica - Quello che ho imparato:
Questi tipi di problemi sono noti come rilevamento delle regole di associazione. Wikipedia ha un buon articolo che copre alcuni degli algoritmi comuni per farlo. L'algoritmo classico per farlo sembra essere Apriori, a causa di Agrawal et. al.
Questo mi ha portato a Orange , un pacchetto di data mining interfacciato con Python. Per Linux, il modo migliore per installarlo sembra provenire dal sorgente usando setup.py fornito
Orange per impostazione predefinita legge l'input dai file, formattato in uno dei diversi modi supportati.
Infine, un semplice apprendimento delle regole dell'associazione Apriori è semplice in arancione.
arules
varrebbe la pena dare un'occhiata. Forse "regole di associazione" è un buon termine di ricerca