python - gensim Word2Vec 是否包含上下文中的相邻句子?
问题描述
我正在计算材料标签的相似性。每个标签中可能有 1-10 个单词。我正在使用 gensim word2vec 来查找余弦相似度。
我的方法只是将每个标签视为一个“句子”并标记每个单词。
例如:
labels = ['木桌樱桃','长袖衬衫棉',..]
句子= [['木制','桌子','樱桃'],['长','袖子','衬衫','棉花'],..]
我的问题是 word2vec 是否将相邻的句子纳入其上下文。例如,如果我使用的是 window = 2,当查看“long”周围的单词时,会包含“cherry”还是只包含“sleeve”。
如果考虑相邻的句子,有没有办法只考虑目标词句子中的词。
谢谢你的帮助。我已阅读 Word2Vec 文档,但找不到任何相关信息。
解决方案
Gensim 会Word2Vec
处理您提供给它的任何文本块。因此,当您在训练语料库中提供['wooden', 'desk', 'cherry']
并['long', 'sleeve', 'shirt', 'cotton']
作为单独的项目时,没有任何训练窗口会将它们混合在一起。
(另外:在足够大的训练集中,这种“溢出”不太可能产生太大的影响,即使它确实发生了。这会有点随机干扰,因为源数据没有“并不真正暗示这些词一起出现。但它在训练中抛出的曲线球应该被真正同时出现的“真实信号”所淹没。)
推荐阅读
- .net - 为什么 \u0092 符号在控制台/调试窗口中不可见 - 但其对应的 ' - 是?
- amazon-web-services - 无法在 AWS 上部署 jboss
- javascript - how to send requests inside loop to backend and use await and make the loop executes sequentially
- php - 带有 php 的 HTML 表单不能使用单个提交按钮。
- ios - 单击 Tableview 单元格时使用哪种方法更新 Rest Api 数据
- jquery - 如何使用jquery遍历表中每一行的隐藏字段值
- r - 我在 typeof(x) 中遇到错误:对象“ParcelArea.m2”。未找到
- python - OpenCV 流式传输 ip 相机总是返回 False
- javascript - 发出请求时 LoopbackJS 和 PostgreSQL 之间的连接出错
- boost - 将自定义提升与 CMake 联系起来