首页 > 解决方案 > Word2Vec Wordvectors 最相似的

问题描述

我训练了一个 Word2Vec 模型,我正在尝试在数学上制定 most_similar 函数。我想到了一个集合,其中包含 n 个最相似的单词,给定一个单词作为参考。

在某个地方存在一个好的定义吗?

标签: word2vec

解决方案


您可以查看实现 Python 库抽象的源代码most_similar()gensim用于KeyedVectors在词向量集上保存和执行常见操作):

https://github.com/RaRe-Technologies/gensim/blob/fbc7d0952f1461fb5de3f6423318ae33d87524e3/gensim/models/keyedvectors.py#L491

粗略地说,它首先计算一个目标向量——通过结合调用者提供的任何positive示例negative。在常见情况下,这可能只是一个(“肯定”)词向量。

然后,它计算与所有其他向量的余弦相似度,并将这些相似度排序为最高,并返回前 N 个结果。


推荐阅读