nlp - 不同的 Tokenization 和 text_to_sequence 对嵌入有什么影响?
问题描述
假设我有一个文本数据集,我想在其中使用 Glove Embedding。在我将文本转换为序列时进行标记化后,单词会根据我定义的字典转换为数字。但是其他人可能使用另一个字典,对于“Apple”等同一个词,不同字典的位置可能不同,嵌入层的输出矩阵也会不同。
如果我没有错,那么即使在对同一个单词使用不同的位置大小之后,为什么嵌入层仍然有效?
解决方案
推荐阅读
- python - 如何在不使用“with”语法的情况下在 python 中打开 csv 文件?
- python-3.x - 使用列表理解和随机性模拟掷硬币,代码首先工作然后挂起
- reactjs - 从 json 文件加载语言时的翻译问题
- javascript - 在 ReactJS 中获取调用到 PHP 文件返回未定义
- google-maps - 谷歌地图不工作 IE11 (sharepoint 2010)
- python - 蟒蛇 | 如何重载 __getitem__ 和 __setitem__ 以允许双索引?
- postgresql - 如何使用本地 PgAdmin 连接到 Divio postgres 数据库?
- c# - 大数据处理方法的最佳设计模式
- sorting - 索引可以放入 RAM 时的外部排序
- angular - 永久性 SnackBar 的建议,如 Message Angular Mat