Non sono sicuro se questo è il sito dello stack giusto, ma qui va.
Come funziona il metodo .similiarity?
Wow spaCy è fantastico! Il suo modello tfidf potrebbe essere più semplice, ma w2v con una sola riga di codice ?!
Nel suo tutorial di 10 righe su spaCy andrazhribernik ci mostra il metodo .similarity che può essere eseguito su token, sents, blocchi di parole e documenti.
Dopo nlp = spacy.load('en')
e doc = nlp(raw_text)
possiamo fare domande di similitudine tra token e blocchi. Tuttavia, cosa viene calcolato dietro le quinte in questo .similarity
metodo?
SpaCy ha già incredibilmente semplice .vector
, che calcola il vettore w2v come addestrato dal modello GloVe (quanto sarebbe bello .tfidf
o un .fasttext
metodo?).
Il modello sta semplicemente calcolando la somiglianza del coseno tra questi due w2v, .vector, vettori o confrontando qualche altra matrice? I dettagli non sono chiari nella documentazione ; qualsiasi aiuto apprezzato!