Supponiamo di avere cinque set che vorrei raggruppare. Comprendo che la tecnica di SimHashing descritta qui:
https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/
potrebbe produrre tre cluster ( {A}
, {B,C,D}
e {E}
), per esempio, se i risultati sono stati:
A -> h01
B -> h02
C -> h02
D -> h02
E -> h03
Allo stesso modo, la tecnica MinHashing descritta nel capitolo 3 del libro MMDS:
http://infolab.stanford.edu/~ullman/mmds/ch3.pdf
potrebbe anche produrre gli stessi tre cluster se i suoi risultati fossero:
A -> h01 - h02 - h03
B -> h04 - h05 - h06
|
C -> h04 - h07 - h08
|
D -> h09 - h10 - h08
E -> h11 - h12 - h13
(Ogni set corrisponde a una firma MH composta da tre "bande" e due set sono raggruppati se almeno una delle loro bande di firma è corrispondente. Più bande significherebbe più possibilità di corrispondenza.)
Tuttavia ho diverse domande relative a questi:
(1) SH può essere inteso come una versione a banda singola di MH?
(2) MH implica necessariamente l'uso di una struttura di dati come Union-Find per costruire i cluster?
(3) Ho ragione nel pensare che i cluster, in entrambe le tecniche, sono in realtà "pre-cluster", nel senso che sono solo gruppi di "coppie candidate"?