首页 > 解决方案 > 使用特殊标记的字符级标记化

问题描述

我正在将我的不和谐服务器消息输入 RNN,以便我可以基于这些消息创建一个聊天机器人。我知道 tensorflowtf.keras.preprocessing.text.Tokenizer可以在字符级别进行标记,但我想包含特殊标记,因为我希望机器人模拟一个人在不和谐的情况下编写多条消息,并为每个短语多次按 enter。一个句子的例子是,带有特殊标记: '<START> im a riot <ENTER> ok <ENTER> lets see here <END> '

在这种情况下,如何包含这样的特殊标记?到目前为止,我发现的唯一方法是使用正则表达式方法来re.findall分隔字符和特殊标记(re.findall(r'(?:(?:<[\w]+?>)|(?:[\w.,?!:]))在 tf.data 数据集上。

标签: tensorflownlptokenizerecurrent-neural-networktf.data.dataset

解决方案


推荐阅读