Per quanto riguarda l'analisi del carrello, penso che l'obiettivo principale sia quello di individuare le combinazioni più frequenti di prodotti acquistati dai clienti. Il association rulesrappresentano la metodologia più naturale qui (anzi erano in realtà sviluppato per questo scopo). L'analisi delle combinazioni di prodotti acquistati dai clienti e il numero di volte in cui queste combinazioni vengono ripetute, porta a una regola del tipo "se condizione, quindi risultato" con una corrispondente misurazione di interesse. È inoltre possibile prendere Log-linear modelsin considerazione al fine di indagare le associazioni tra le variabili considerate.
Ora per quanto riguarda il clustering, ecco alcune informazioni che potrebbero tornare utili:
A prima vista Variable clustering. Il clustering di variabili viene utilizzato per valutare collinearità, ridondanza e per separare le variabili in cluster che possono essere valutati come una singola variabile, con conseguente riduzione dei dati. Cerca la varclusfunzione (pacchetto Hmisc in R)
Valutazione della stabilità clusterwise: function clusterboot{R package fpc}
Statistiche basate sulla distanza per la convalida del cluster: funzione cluster.stats{R pacchetto fpc}
Come accennato da mbq, usa le larghezze della silhouette per valutare il miglior numero di cluster. Guarda questo . Per quanto riguarda le larghezze della sagoma, vedere anche la funzione optsil .
Stimare il numero di cluster in un set di dati tramite la statistica gap
Per il calcolo degli indici di dissimilarità e delle misure di distanza consultare dsvdis e vegdist
L'algoritmo di clustering EM può decidere quanti cluster creare per convalida incrociata (se non è possibile specificare a priori quanti cluster generare). Sebbene sia garantito che l'algoritmo EM converga al massimo, questo è un massimo locale e potrebbe non essere necessariamente uguale al massimo globale. Per una migliore possibilità di ottenere il massimo globale, l'intera procedura deve essere ripetuta più volte, con diverse ipotesi iniziali per i valori dei parametri. La cifra della probabilità logaritmica complessiva può essere utilizzata per confrontare le diverse configurazioni finali ottenute: basta scegliere il più grande dei massimi locali . È possibile trovare un'implementazione del clusterer EM nel progetto open source WEKA
Questo è anche un link interessante.
Cerca anche qui perFinding the Right Number of Clusters in k-Means and EM Clustering: v-Fold Cross-Validation
Infine, puoi esplorare i risultati del clustering usando clusterfly