首页 > 解决方案 > 来自整个 doc2vec 模型的词向量与来自特定文档的词向量

问题描述

我用默认的 word2vec 训练(dm=1)训练了一个 gensim 的 Doc2Vec 模型。我可以从 model.wv.vectors 中的全局模型中获取词向量。但是文档说相同的单词(示例中的“叶子”)不会具有相同的向量,具体取决于它出现的文档上下文。

所以我有点困惑:在model.wv.vectors中,例如“叶子”这个词是否对用于训练模型的所有文档具有相同的向量(这可能与我从文档中理解的内容相矛盾) ? 如果没有,如何从特定文档中获取词向量?

标签: gensimword2vecdoc2vec

解决方案


该文件具有误导性。在该模型中,词标记'leaves'将只有一个词向量。

我猜该评论的作者可能意味着在 PV-DM 模式下的模型训练期间(dm=1),训练预测将受到词向量和“浮动”文档向量组合的影响文本(以及上下文窗口中的其他相邻词向量)。但是,一个词只有一个向量,那里的描述很混乱。


推荐阅读