Ho un sacco di documenti, che contengono un sacco di coppie chiave-valore. La chiave potrebbe non essere univoca, quindi potrebbero esserci più chiavi dello stesso tipo con valori diversi.
Voglio confrontare la somiglianza delle chiavi tra 2 documenti. Più in particolare la somiglianza delle stringhe di questi valori. Sto pensando di usare qualcosa come l' algoritmo di Smith-Waterman per confrontare la somiglianza.
Quindi ho disegnato un'immagine di come sto pensando di rappresentare i dati -
I valori nelle celle sono il risultato dell'algoritmo smith-waterman (o di qualche altra metrica di somiglianza delle stringhe).
Immagine che questa matrice rappresenta un tipo chiave di "cose", quindi ho bisogno di aggiungere il punteggio di somiglianza "cose" in un vettore di 0 o 1. Va bene.
Quello che non riesco a capire è come determinare se la matrice è simile o non simile - idealmente voglio convertire la matrice in un numero compreso tra 0 e 1 e quindi imposterò una soglia per segnarla come 0 o 1.
Qualche idea su come posso creare un punteggio della matrice? Qualcuno conosce qualche algoritmo che fa questo tipo di cose (ovviamente cose come smith waterman funziona in un certo senso).