首页 > 解决方案 > gensim vocab index 是对应的 1-hot-vector 中的索引吗?

问题描述

我正在做需要直接操作和嵌入单热向量的研究,我正在尝试使用 gensim 来为此加载预训练的 word2vec 模型。

问题是他们似乎没有直接使用 1-hot-vectors 的 api。我正在寻找解决方法。

所以我想知道是否有人知道这样做的方法?或者更具体地说,如果这些词汇索引(定义非常模糊)。可以是相应的 1-hot-vectors 的索引吗?

我发现的上下文:

##############################################

class gensim.models.keyedvectors.Vocab(**kwargs) 基础:对象

单个词汇项目,在内部用于收集每个词的频率/采样信息,并用于构建二叉树(包括词叶和内部节点)。

##############################################

标签: gensimword2vecone-hot-encoding

解决方案


是的,您可以将indexgensim 的Word2Vec词向量的(位置)视为一个维度1.0- 与所有其他 V 维度一起,其中 V 是唯一词的计数,是0.0

该实现实际上并没有创建单热向量,作为稀疏或显式表示。它只是使用单词的索引作为其密集向量的查找 - 遵循word2vec.cgensim 实现最初基于的 Google 代码路径。

(术语 'doctags' 仅与Doc2Vec- aka 'Paragraph Vector' - 实现相关。它是用于查找文档向量的不同标记/整数的名称,使用与文档内单词不同的命名空间. 也就是说,Doc2Vec您可以将'doc_007'其用作 doc-vector 名称,也称为“doctag”,即使字符串标记'doc_007'也作为单词出现在文档中,doctag-key'doc_007'和 word-vector 引用的 doc-vector由 word-key 引用的'doc_007'内部向量将不同。)


推荐阅读