"A" è correlato a "B" e "C". Come faccio a dimostrare che anche "B" e "C" potrebbero essere correlati in questo contesto?
Esempio:
Ecco alcuni titoli su un recente spettacolo di Broadway:
- Glengarry Glen Ross di David Mamet, con Al Pacino, si apre a Broadway
- Al Pacino in "Glengarry Glen Ross": cosa hanno pensato i critici?
- Al Pacino guadagna recensioni poco brillanti per il turno di Broadway
- Rassegna teatrale: Glengarry Glen Ross sta vendendo le sue stelle duramente
- Glengarry Glen Ross; Ehi, chi ha ucciso le luci di Klieg?
Problema:
L'esecuzione di una corrispondenza di stringa fuzzy su questi record stabilirà alcune relazioni, ma non altre, anche se un lettore umano potrebbe sceglierle dal contesto in set di dati molto più grandi.
Come trovo la relazione che suggerisce che il n. 3 è correlato al n. 4? Entrambi possono essere facilmente collegati al n. 1, ma non tra loro.
Esiste un nome (googlabile) per questo tipo di dati o struttura? Che tipo di algoritmo sto cercando?
Obbiettivo:
Dati 1.000 titoli, un sistema che suggerisce automaticamente che questi 5 elementi sono probabilmente tutti sulla stessa cosa.
Ad essere onesti, è da tanto tempo che non ho programmato che non so come articolare correttamente questo problema. (Non so cosa non so, se questo ha senso).
Questo è un progetto personale e lo sto scrivendo in Python. Grazie in anticipo per qualsiasi aiuto, consiglio e suggerimenti!