Quali sono alcuni modi standard per calcolare la distanza tra le singole query di ricerca?

Ho fatto una domanda simile chiedendo la distanza tra i "documenti" (articoli di Wikipedia, notizie, ecc.). Ho reso questa una domanda separata perché le query di ricerca sono notevolmente più piccole dei documenti e sono notevolmente più rumorose. Quindi non so (e dubito) se le stesse metriche di distanza sarebbero utilizzate qui.

Sono preferite le metriche della distanza lessicale vaniglia o le metriche della distanza semantica all'avanguardia, con una preferenza maggiore per quest'ultima.

machine-learning nlp search

— opaco
fonte

Le query di ricerca non sono più rumorose (ci sono pochissime parole in una query non effettivamente correlate alla ricerca), ma possono contenere errori di ortografia, ambiguità, slang e altre cose che devi trattare separatamente. Oltre a questi problemi, le query e i documenti possono essere elaborati praticamente allo stesso modo.

— amico

forse puoi estrarre i vettori di parole chiave dalle query e quindi calcolare la distanza tra quei vettori e come viene definita la somiglianza, penso che questa sia ancora una domanda aperta :)

— crazyminer

Entrambe le tue domande sono ampie, soggettive e richiedono una manutenzione significativa per evitare di diventare obsolete. Dal momento che la comunità apprezza questo tipo di domanda, tenerne una potrebbe essere ragionevole - ma certamente non entrambe, quando questa discussione è un sottoinsieme proprio dell'altra. Si prega di rivedere Quali tipi di domande dovrei evitare di porre?

— Air

Grazie, AirThomas! Il post di ffriend sembra certamente indicare che questo è chiaramente un duplicato. Vedrò cosa posso fare al riguardo.

— Matt,

Risposte:

Dalla mia esperienza, solo alcune classi di query possono essere classificate in base a caratteristiche lessicali (a causa dell'ambiguità del linguaggio naturale). Puoi invece provare a utilizzare i risultati di ricerca booleani (siti o segmenti di siti, non documenti, senza classificazione) come funzionalità per la classificazione (anziché su parole). Questo approccio funziona bene nelle classi in cui esiste una grande ambiguità lessicale in una query ma esiste un sacco di buoni siti pertinenti alla query (ad esempio film, musica, query commerciali e così via).

Inoltre, per la classificazione offline è possibile eseguire LSI sulla matrice del sito di query. Vedere il libro "Introduzione al recupero delle informazioni" per i dettagli.

— Alx49
fonte

In una nota correlata, ho trovato questo documento pertinente .

— Matt,

La metrica di somiglianza del coseno fa un buon (se non perfetto) controllo della lunghezza del documento, quindi confrontare la somiglianza di 2 documenti o 2 query usando la metrica del coseno e i pesi idf per le parole dovrebbe funzionare bene in entrambi i casi. Vorrei anche raccomandare di fare prima LSA su pesi idf e poi calcolare la distanza del coseno \ somiglianze.

Se stai cercando di costruire un motore di ricerca, ti consiglierei di utilizzare un motore di ricerca open source gratuito come solr o la ricerca elastica, o solo le librerie lucene, poiché fanno la maggior parte del lavoro per te e hanno buoni metodi integrati per gestire la query per documentare il problema di somiglianza.

— Simon
fonte