Sto cercando di incorporare circa 60 milioni di frasi in uno spazio vettoriale , quindi calcolare la somiglianza del coseno tra loro. Sto usando sklearn CountVectorizer
con una funzione tokenizer personalizzata che produce unigrammi e bigrammi. Si scopre che per ottenere rappresentazioni significative, devo consentire un numero enorme di colonne, lineare nel numero di righe. Questo porta a matrici incredibilmente sparse e sta uccidendo le prestazioni. Non sarebbe così male se ci fossero solo circa 10.000 colonne, che penso sia abbastanza ragionevole per gli incastri di parole.
Sto pensando di provare a utilizzare Google word2vec
perché sono abbastanza sicuro che produca incorporamenti di dimensioni molto più basse e più densi. Ma prima, ci sono altri matrimoni che potrebbero giustificare uno sguardo all'inizio? Il requisito chiave sarebbe in grado di ridimensionare circa 60 milioni di frasi (righe).
Sono abbastanza nuovo nel campo degli incantesimi di parole, quindi qualsiasi consiglio sarebbe d'aiuto.
Dovrei anche aggiungere che sto già utilizzando la decomposizione a valore singolare per migliorare le prestazioni.