python - 如何计算word2vec中的差异向量
问题描述
我有一个二进制 word2vec 文件,我正在使用gensim
它来加载它。
虽然similarity
在 gensim 中有两个单词之间的函数,但没有计算和返回差异向量的函数。
如何使用两个向量并获得差异向量?
而且我正在尝试将这些差异向量用作文档分类中的特征。计算每个单词和每个类之间的差异向量。这是正确的方法吗?
例如,如果类是sport
和politics
sport = [0.4,0.456,45,...] #wordvector of class
politics = [0.23,0.56...] #wordvector of class
我的话是football
football = [0.2,0.6,0.45,...] #wordvector of football
我想计算差异向量
(sport - football) = [some vector] # this as a feature for classification
解决方案
如何使用两个向量并获得差异向量?
您对简单地减去两个向量的预感似乎是正确的(来源:https ://blog.galvanize.com/add-and-subtract-words-like-vectors-with-word2vec-2/ )。如果我没记错的话,您可以使用 tensorflow 减去这些词向量 gensim 使用 tf.
而且我正在尝试将这些差异向量用作文档分类中的特征。计算每个单词和每个类之间的差异向量。这是正确的方法吗?
我不知道你的目标,但我会考虑训练你自己的神经网络,对单词/文档进行分类,我会看看新的包天赋来帮助你。https://github.com/zalandoresearch/flair/issues/787
推荐阅读
- sql-server - 如何使用 TRANSACTION 将 CREATE TRIGGER 放入 TRY-CATCH 块中?
- vb.net - 传递参数时,Form1.Data 类型的值无法转换为 Form1.Data()
- git - Git rebase 导致“文件取消链接失败”错误
- r - 减去改变一列但保持其他列不变的行
- python - 调试 LDAP 库 / 连接 Wireshark / 或其他
- excel - 如何为 Excel 的此 VBA 代码添加第二个附件?
- python - 从返回的变量中删除 unicode 字符 - Tautulli Newsletter
- python - Flask OIDC 用户登录为真,但令牌为无
- c - 使用 mem alloc 通过指针或指针向函数发送字符串数组?
- objective-c - “self”的 swift 函数导致 Xcode 中的错误