Ho un gruppo di n set per i quali ho bisogno di calcolare una sorta di valore di "unicità" o "somiglianza". Ho optato per l' indice Jaccard come metrica adatta. Sfortunatamente, l'indice Jaccard funziona solo su due set alla volta. Per calcolare la somiglianza tra tutti gli set, sarà necessario nell'ordine di n 2 calcoli Jaccard.
(Se aiuta, di solito è compreso tra 10 e 10000 e ogni set contiene in media 500 elementi. Inoltre, alla fine, non mi interessa quanto siano simili due set specifici - piuttosto, mi interessa solo quale somiglianza interna dell'intero gruppo di insiemi è (in altre parole, la media (o almeno un'approssimazione sufficientemente accurata della media) di tutti gli indici di Jaccard nel gruppo))
Due domande:
- C'è un modo per usare ancora l'indice Jaccard senza la complessità ?
- Esiste un modo migliore per calcolare la somiglianza / unicità dei set in un gruppo di set rispetto al modo che ho suggerito sopra?