C'è un problema che stiamo cercando di risolvere dove vogliamo fare una ricerca semantica sul nostro set di dati, ovvero abbiamo un dato specifico del dominio (esempio: frasi che parlano di automobili)
I nostri dati sono solo un mucchio di frasi e ciò che vogliamo è dare una frase e recuperare le frasi che sono:
- Simile a quella frase
- Ha una parte di una frase simile alla frase
- Una frase che ha significati contestualmente simili
Lasciami provare a darti un esempio supponiamo che io cerchi la frase "Buying Experience", dovrei ottenere frasi come:
- Non avrei mai pensato che l'acquisto di auto potesse richiedere meno di 30 minuti per firmare e acquistare.
Ho trovato un'auto che mi piaceva e il processo di acquisto è stato
semplice e immediatoOdio assolutamente fare shopping in auto, ma oggi sono contento di averlo fatto
Voglio porre l'accento sul fatto che stiamo cercando una somiglianza contestuale e non solo una ricerca di parole con forza bruta.
Se la frase usa parole diverse, allora dovrebbe anche essere in grado di trovarla.
Cose che abbiamo già provato:
Apri ricerca semantica il problema che abbiamo affrontato qui è generare ontologia dai dati che abbiamo, o per quel motivo cercare ontologia disponibile da diversi domini di nostro interesse.
Ricerca elastica (BM25 + Vectors (tf-idf)), abbiamo provato questo in cui ha dato alcune frasi ma la precisione non era eccezionale. Anche l'accuratezza era cattiva. Abbiamo provato contro un set di dati a cura dell'uomo, è stato in grado di ottenere solo il 10% delle frasi.
Abbiamo provato diversi incorporamenti come quello menzionato una volta nei trasformatori di frasi e abbiamo anche esaminato l' esempio e provato a valutare il nostro set curato dall'uomo e che aveva anche una precisione molto bassa.
Abbiamo provato ELMO . Questa era un'accuratezza migliore ma ancora inferiore a quanto ci aspettassimo e c'è un carico cognitivo per decidere il valore del coseno al di sotto del quale non dovremmo considerare le frasi. Questo vale anche per il punto 3.
Qualsiasi aiuto sarà apprezzato. Grazie mille per l'aiuto in anticipo