首页 > 解决方案 > gensim Word2Vec 是否包含上下文中的相邻句子?

问题描述

我正在计算材料标签的相似性。每个标签中可能有 1-10 个单词。我正在使用 gensim word2vec 来查找余弦相似度。

我的方法只是将每个标签视为一个“句子”并标记每个单词。
例如:
labels = ['木桌樱桃','长袖衬衫棉',..]

句子= [['木制','桌子','樱桃'],['长','袖子','衬衫','棉花'],..]

我的问题是 word2vec 是否将相邻的句子纳入其上下文。例如,如果我使用的是 window = 2,当查看“long”周围的单词时,会包含“cherry”还是只包含“sleeve”。

如果考虑相邻的句子,有没有办法只考虑目标词句子中的词。

谢谢你的帮助。我已阅读 Word2Vec 文档,但找不到任何相关信息。

标签: pythonmachine-learningnlpgensimword2vec

解决方案


Gensim 会Word2Vec处理您提供给它的任何文本块。因此,当您在训练语料库中提供['wooden', 'desk', 'cherry']['long', 'sleeve', 'shirt', 'cotton']作为单独的项目时,没有任何训练窗口会将它们混合在一起。

(另外:在足够大的训练集中,这种“溢出”不太可能产生太大的影响,即使它确实发生了。这会有点随机干扰,因为源数据没有“并不真正暗示这些词一起出现。但它在训练中抛出的曲线球应该被真正同时出现的“真实信号”所淹没。)


推荐阅读