Come eseguire un'analisi di correlazione tra "birra e pannolini"

Ho dati equivalenti a:

shopper_1 = ['beer', 'eggs', 'water',...]
shopper_2 = ['diapers', 'beer',...]
...

Vorrei fare alcune analisi su questo set di dati per ottenere una matrice di correlazione che avrebbe un'implicazione simile a: se hai acquistato x, è probabile che tu acquisti y.

Usando python (o forse tutto tranne MATLAB), come posso procedere? Alcune linee guida di base o indicazioni su dove dovrei cercare sarebbero di aiuto.

Grazie,

Modifica - Quello che ho imparato:

Questi tipi di problemi sono noti come rilevamento delle regole di associazione. Wikipedia ha un buon articolo che copre alcuni degli algoritmi comuni per farlo. L'algoritmo classico per farlo sembra essere Apriori, a causa di Agrawal et. al.
Questo mi ha portato a Orange , un pacchetto di data mining interfacciato con Python. Per Linux, il modo migliore per installarlo sembra provenire dal sorgente usando setup.py fornito
Orange per impostazione predefinita legge l'input dai file, formattato in uno dei diversi modi supportati.
Infine, un semplice apprendimento delle regole dell'associazione Apriori è semplice in arancione.

— Azarias R
fonte

Se stavi cercando un pacchetto R, arulesvarrebbe la pena dare un'occhiata. Forse "regole di associazione" è un buon termine di ricerca

— Karsten W.

Vedi anche l' algoritmo Apriori per l'approccio "standard" a questo problema.

— cardinale

Oltre ai collegamenti forniti nei commenti, ecco alcuni ulteriori suggerimenti:

Regole di associazione e articoli frequenti
Sondaggio sull'estrazione frequente dei modelli : guarda intorno alla Tabella 1, pag. 4

A proposito di Python, suppongo che ora abbiate un'idea di cosa dovreste cercare, ma il pacchetto di data mining di Orange presenta un pacchetto su regole e set di articoli dell'Associazione (anche se per quest'ultimo non riesco a trovare alcun riferimento sul sito Web).

Modificare:

Di recente mi sono imbattuto in pysuggest che è

un motore di raccomandazione Top-N che implementa una varietà di algoritmi di raccomandazione. I sistemi di raccomandazione Top-N, una tecnologia di filtraggio delle informazioni personalizzata, vengono utilizzati per identificare una serie di N articoli che saranno di interesse per un determinato utente. Negli ultimi anni, i sistemi di raccomandazione top-N sono stati utilizzati in numerose applicazioni diverse per raccomandare prodotti che molto probabilmente un cliente acquisterà; raccomandare film, programmi TV o musica che un utente troverà divertenti; identificare le pagine Web che saranno di interesse; o addirittura suggerire modi alternativi di cercare informazioni.

— CHL
fonte

Quanti prodotti, mi chiedo, devono essere coinvolti prima che una semplice matrice di correlazione sia insufficiente?

— rolando2,