La somiglianza di Jaccard è data da
sij=pp+q+r
dove,
p = # di attributi positivi per entrambi gli oggetti
q = # di attributi 1 per i e 0 per j
r = # di attributi 0 per ie 1 per j
Considerando che la somiglianza del coseno = dove A e B sono vettori di oggetti.A⋅B∥A∥∥B∥
In poche parole, in somiglianza del coseno, il numero di attributi comuni è diviso per il numero totale di attributi possibili. Mentre in Jaccard Somiglianza, il numero di attributi comuni è diviso per il numero di attributi che esiste in almeno uno dei due oggetti.
E ci sono molte altre misure di somiglianza, ognuna con le proprie eccentricità. Quando decidi quale utilizzare, prova a pensare ad alcuni casi rappresentativi e capire quale indice darebbe i risultati più utilizzabili per raggiungere il tuo obiettivo.
L'indice del coseno potrebbe essere utilizzato per identificare il plagio, ma non sarà un buon indice per identificare i siti mirror su Internet. Considerando che l'indice Jaccard, sarà un buon indice per identificare i siti mirror, ma non così grande nel catturare il plagio della pasta da copia (all'interno di un documento più grande).
Quando si applicano questi indici, è necessario riflettere a fondo sul problema e capire come definire la somiglianza. Una volta che hai in mente una definizione, puoi fare shopping per un indice.
Modifica:
In precedenza, avevo incluso un esempio in questa risposta, che alla fine era errato. Grazie ai vari utenti che lo hanno sottolineato, ho rimosso l'esempio errato.