首页 > 解决方案 > 不同的 Tokenization 和 text_to_sequence 对嵌入有什么影响?

问题描述

假设我有一个文本数据集,我想在其中使用 Glove Embedding。在我将文本转换为序列时进行标记化后,单词会根据我定义的字典转换为数字。但是其他人可能使用另一个字典,对于“Apple”等同一个词,不同字典的位置可能不同,嵌入层的输出矩阵也会不同。

如果我没有错,那么即使在对同一个单词使用不同的位置大小之后,为什么嵌入层仍然有效?

标签: nlptokenizeembedding

解决方案


推荐阅读