tensorflow - 使用特殊标记的字符级标记化
问题描述
我正在将我的不和谐服务器消息输入 RNN,以便我可以基于这些消息创建一个聊天机器人。我知道 tensorflowtf.keras.preprocessing.text.Tokenizer
可以在字符级别进行标记,但我想包含特殊标记,因为我希望机器人模拟一个人在不和谐的情况下编写多条消息,并为每个短语多次按 enter。一个句子的例子是,带有特殊标记:
'<START> im a riot <ENTER> ok <ENTER> lets see here <END> '
在这种情况下,如何包含这样的特殊标记?到目前为止,我发现的唯一方法是使用正则表达式方法来re.findall
分隔字符和特殊标记(re.findall(r'(?:(?:<[\w]+?>)|(?:[\w.,?!:]))
在 tf.data 数据集上。
解决方案
推荐阅读
- windows - 以管理员身份从批处理文件运行 Windows 服务
- ssh - 尝试通过 SSH 使用 Plotly 保存无花果
- c# - 两个复制的 SQL 服务器之间的应用程序处理故障转移
- android - 如何在模块中查找 NewApi 问题?
- r - 当您有具有多个数据的组时,在 R 中计算组标准偏差
- javascript - Python FastAPI:返回的 gif 图像没有动画
- angular - 安全运行 Angular Universal
- javascript - 是否可以更快地加载包含图像的大型 PDF?
- javascript - setTimeout() 无法打开新网址
- python-3.x - 如何处理此图像以获得清晰的数字