La mia domanda potrebbe essere sciocca. Quindi mi scuserò in anticipo.
Stavo cercando di utilizzare il modello GLOVE pre-addestrato dal gruppo Stanford NLP ( link ). Tuttavia, ho notato che i miei risultati di somiglianza hanno mostrato alcuni numeri negativi.
Ciò mi ha immediatamente spinto a guardare il file di dati vettoriali. Apparentemente, i valori nelle parole vettori potevano essere negativi. Ciò ha spiegato perché ho visto somiglianze al coseno negative.
Sono abituato al concetto di somiglianza del coseno dei vettori di frequenza, i cui valori sono limitati in [0, 1]. So per certo che il punto prodotto e la funzione del coseno possono essere positivi o negativi, a seconda dell'angolo tra il vettore. Ma ho davvero difficoltà a comprendere e interpretare questa somiglianza negativa del coseno.
Ad esempio, se ho una coppia di parole che danno somiglianza di -0,1, sono meno simili di un'altra coppia la cui somiglianza è 0,05? Che ne dici di confrontare la somiglianza tra -0,9 e 0,8?
O dovrei solo guardare il valore assoluto della minima differenza di angolo da ? Valore assoluto dei punteggi?
Molte molte grazie.
An angular-type similarity coefficient between two vectors. It is like correlation, only without centering the vectors.
L'unica differenza tra i due è che nelle deviazioni di correlazione (i momenti) - che vengono moltiplicati in modo incrociato - provengono dalla media, mentre nelle deviazioni del coseno sono dallo 0 originale - cioè sono i valori così come sono .