首页 > 解决方案 > BertTokenizer 和词嵌入类似吗?

问题描述

从 huggingface 使用 BertTokenizer 的想法真的让我很困惑。

  1. 当我使用

    tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")
    tokenizer.encode_plus("Hello")
    

结果是否有点类似于我将表示“Hello”的单热向量传递给学习嵌入矩阵时的结果?

  1. 怎么

    BertTokenizer.from_pretrained("bert-base-uncased") 
    

不同于

BertTokenizer.from_pretrained("bert-**large**-uncased") 

和其他预训练?

标签: deep-learningnlpword-embeddinghuggingface-tokenizers

解决方案


encode_plus和函数标记您的encode文本并以正确的 BERT 模型输入格式准备它们。因此,您可以看到它们类似于您提供的示例中的 one-hot 向量。返回由、和组成
encode_plusBatchEncoding 。input_idstoken_type_idsattention_mask

预训练模型因编码器层数而异。基础模型有 12 个编码器,大型模型有 24 层编码器。


推荐阅读