Ho una matrice semi-piccola di caratteristiche binarie di dimensione 250k x 100. Ogni riga è un utente e le colonne sono "tag" binari di alcuni comportamenti dell'utente, ad esempio "like_cats".
user 1 2 3 4 5 ...
-------------------------
A 1 0 1 0 1
B 0 1 0 1 0
C 1 0 0 1 0
Vorrei adattare gli utenti in 5-10 cluster e analizzare i caricamenti per vedere se sono in grado di interpretare gruppi di comportamento degli utenti. Sembra che ci siano alcuni approcci per adattare i cluster ai dati binari: quale riteniamo possa essere la migliore strategia per questi dati?
PCA
Creazione di una matrice di somiglianza Jaccard , adattamento di un cluster gerarchico e utilizzo dei primi "nodi".
K-mediane
K-medoids
Prossimo ?
Agnese
Finora ho avuto un certo successo con l'utilizzo del clustering gerarchico, ma non sono davvero sicuro che sia il modo migliore di procedere.
tags = read.csv("~/tags.csv")
d = dist(tags, method = "binary")
hc = hclust(d, method="ward")
plot(hc)
cluster.means = aggregate(tags,by=list(cutree(hc, k = 6)), mean)