Identico significato, che produrrà risultati identici per una somiglianza Classifica tra un vettore u e un insieme di vettori V .
Ho un modello di spazio vettoriale che ha come parametro la misura della distanza (distanza euclidea, somiglianza del coseno) e la tecnica di normalizzazione (nessuna, l1, l2). Da quanto ho capito, i risultati delle impostazioni [coseno, nessuno] dovrebbero essere identici o almeno molto simili a [euclidei, l2], ma non lo sono.
In realtà c'è una buona possibilità che il sistema sia ancora difettoso - o ho qualcosa di grave che non va nei vettori?
modifica: ho dimenticato di menzionare che i vettori si basano sul conteggio delle parole dai documenti in un corpus. Dato un documento di query (che anch'io trasformo in un vettore di conteggio parole), voglio trovare il documento dal mio corpus che è più simile ad esso.
Il solo calcolo della loro distanza euclidea è una misura semplice, ma nel tipo di compito a cui lavoro, la somiglianza del coseno è spesso preferita come indicatore di somiglianza, perché i vettori che differiscono solo in lunghezza sono ancora considerati uguali. Il documento con la più piccola somiglianza distanza / coseno è considerato il più simile.