python - 如何将新标记添加到使用句子的 T5 标记器
问题描述
我训练t5
基于tensorflow
以下链接的变压器:
https://github.com/google-research/text-to-text-transfer-transformer
这是一个示例(输入,输出):
输入:
b'[atomic]:<subject>PersonX plays a ___ in the war</subject><relation>oReact</relation>'
输出:
<object>none</object>
但是,对于我得到的预测:
⁇ object>none ⁇ /object>
替换<
为??
,我应该怎么做才能解决这个问题?
更新:我发现奇怪<
的是 t5 tokenizer 的词汇量不足,也就是说sentencepiece
,我只是不知道如何添加它
解决方案
据我所知,您可以使用 Tokenizer.add_tokens() 添加新令牌。更多细节可以在这里找到拥抱脸
推荐阅读
- mysql - MariaDB 约束中的 INITCAP
- amazon-web-services - 在 Amazon AWS Cloud9 中创建子域
- python - 尝试使用 beautifulsoup 获取 ul 中的所有 li 标签
- outlook - Outlook JS API 和 Outlook REST API 之间的关系
- swift - 当我在这个电影类中添加另一个结构时出错,静态成员 'leading' 不能用于类型 'HorizontalAlignment' 的实例
- excel - 不同 Excel 应用程序/实例中的 .find 和 Date 问题
- refactoring - 微层:不要在顶部添加功能,而是简化整体依赖关系
- angular - Plesk - Angular 8 托管
- generate - StyleGAN 如何使用 A 源图像生成 B 图像
- python - 使用 python 连续读取/监视串行端口(如果端口未打开连续运行脚本)