word2vec - Word2Vec Wordvectors 最相似的
问题描述
我训练了一个 Word2Vec 模型,我正在尝试在数学上制定 most_similar 函数。我想到了一个集合,其中包含 n 个最相似的单词,给定一个单词作为参考。
在某个地方存在一个好的定义吗?
解决方案
您可以查看实现 Python 库抽象的源代码most_similar()
(gensim
用于KeyedVectors
在词向量集上保存和执行常见操作):
粗略地说,它首先计算一个目标向量——通过结合调用者提供的任何positive
示例negative
。在常见情况下,这可能只是一个(“肯定”)词向量。
然后,它计算与所有其他向量的余弦相似度,并将这些相似度排序为最高,并返回前 N 个结果。
推荐阅读
- angular - 为什么 DataTable 排序不能在 Angular 9 上工作
- powershell - 更改 ConvertFrom-CSV 对象的类型
- java - Akka 2.6.3 中的问题可取消
- c - 在嵌套结构数组上使用 qsort
- android - 如果 GPS/位置打开,则未检测到位置,但我没有 Wifi 或移动数据 Nougat 7.0 华为
- java - Spring Boot Rest API 不会在 Tomcat 8.5.47 上部署,并带有“org.apache.catalina.LifecycleException: Failed to start component”
- javascript - Vue:是否可以将 app.vue 中的方法放入新组件中?
- ruby-on-rails - 提供 Portfolios#sho Nil 位置中的 ArgumentError。无法构建 URI
- c - 解析来自 UDP 套接字的 recvfrom() 消息的意外行为
- jhipster - Jhipster 基于动态角色的身份验证