nlp - 不同的 Tokenization 和 text_to_sequence 对嵌入有什么影响？

假设我有一个文本数据集，我想在其中使用 Glove Embedding。在我将文本转换为序列时进行标记化后，单词会根据我定义的字典转换为数字。但是其他人可能使用另一个字典，对于“Apple”等同一个词，不同字典的位置可能不同，嵌入层的输出矩阵也会不同。

如果我没有错，那么即使在对同一个单词使用不同的位置大小之后，为什么嵌入层仍然有效？

标签： nlptokenizeembedding