machine-learning - 怎么处理文本生成中的标记
问题描述
正如大多数文本生成文献所建议的那样,在我的文本生成数据集中,我已将所有不常见的词转换为标记(未知词)。
但是,当训练 RNN 将句子的一部分作为输入并预测句子的其余部分时,我不确定应该如何阻止网络生成标记。当网络在训练集中遇到一个未知(不频繁)的单词时,它的输出应该是什么?
示例:
句子:I went to the mall and bought a <ukn> and some groceries
网络输入:I went to the mall and bought a
当前网络输出:<unk> and some groceries
期望的网络输出:??? and some groceries
它应该输出什么而不是<unk>
?
我不想构建一个输出它不知道的单词的生成器。
解决方案
RNN 将为您提供最有可能出现在文本中的标记样本。在您的代码中,您选择概率最高的令牌,在本例中为“unk”。
在这种情况下,您可以省略 «ukn» 标记,并简单地采用RNN 根据其呈现的概率值建议 的下一个最有可能的标记。
推荐阅读
- php - 样式多页链接 (index.php?first_page) - PHP
- amazon-web-services - 如何在 AWS AppSync 控制台中测试订阅?
- php - PHP中的矩阵(3位置)MLM树
- html - CSS 水平条和 div 边框未对齐的问题
- c# - 从 Visual Studio 工具窗口更改自定义编辑器中按钮的内容
- vue.js - Vue多重布局
- c++ - 从 C++ 中的链表中获取元素
- reactjs - 带有 withStyles 的 JSX 元素中的泛型类型参数
- finance - 如何将 Momentum 策略脚本转换为 pinescript 中的警报?
- reactjs - React Native 点动画