word2vec - 如何从 FastText 的输出矩阵中获取向量?
问题描述
在这项研究中,作者发现,Word2Vec 生成两种嵌入(IN 和 OUT)。
https://arxiv.org/abs/1602.01137
好吧,您可以使用 gensim word2vec 中的 syn1 属性轻松获得它。但是在 gensim fastText 的情况下, syn1 确实存在,但是由于 fastText 的概念是基于子词的,因此无法通过匹配索引从输出矩阵中获取词的向量。你知道用输出矩阵计算向量的其他方法吗?
解决方案
在 FastText 中,单词的向量是以下各项的组合:
- 全词向量(如果存在);和
- 所有子词向量
您可以在以下位置查看返回向量的 gensim 方法,如有必要,由子词组成:
(我认为这种方法可能有一个错误,与原始的 FastText 方法相比,这种 gensim 方法可能还应该将子词向量添加到全词向量,即使全词向量可用。)
推荐阅读
- python - 迭代器如何知道下一个项目是什么?
- javafx - JavaFX TreeTableColumn:如何触发列调整大小并保持新宽度
- android - 如何检测导航图中的过渡结束?
- android - 备份 Room 数据库的最佳方法是什么?
- spring-boot - 如何支持 REST API 项目的基本认证和承载认证
- html - 为什么在元素中保持高度和宽度之间的比例?
- sql - AWS Athena 中具有许多类别的数据透视表
- spring - 如何从命令行设置 Log4j2 级别
- ios - 从 Airwatch SDK,我如何获取当前登录的用户名/证书
- python-3.x - 将 caffe 模型转换为 ONNX 格式 - coremltools 的问题