gensim - 来自整个 doc2vec 模型的词向量与来自特定文档的词向量
问题描述
我用默认的 word2vec 训练(dm=1)训练了一个 gensim 的 Doc2Vec 模型。我可以从 model.wv.vectors 中的全局模型中获取词向量。但是文档说相同的单词(示例中的“叶子”)不会具有相同的向量,具体取决于它出现的文档上下文。
所以我有点困惑:在model.wv.vectors中,例如“叶子”这个词是否对用于训练模型的所有文档具有相同的向量(这可能与我从文档中理解的内容相矛盾) ? 如果没有,如何从特定文档中获取词向量?
解决方案
该文件具有误导性。在该模型中,词标记'leaves'
将只有一个词向量。
我猜该评论的作者可能意味着在 PV-DM 模式下的模型训练期间(dm=1
),训练预测将受到词向量和“浮动”文档向量组合的影响文本(以及上下文窗口中的其他相邻词向量)。但是,一个词只有一个向量,那里的描述很混乱。
推荐阅读
- nginx - Nginx auth_request 限制不受尊重
- php - 如何获取自定义帖子类型WordPress的特定字段的所有自定义字段值
- cron - How to run a cron job for edX notifier digest
- javascript - 填充“今天 + x 天”作为表单输入值
- jquery - AngularJS ng-style 问题
- node.js - 问题 dockerizing uppy-server
- java - Spark 流式传输 2.11 - java.util.NoSuchElementException:执行 SQL 函数时出现 None.get 错误
- javascript - 如何强制 ag-grid 滚动到选定/突出显示的行位置
- regex - 正则表达式 - 在字符串中间允许句点('.'),但不允许在末尾
- java - 传播 Akka 的 PoisonPill 消息