首页 > 解决方案 > 怎么处理文本生成中的标记

问题描述

正如大多数文本生成文献所建议的那样,在我的文本生成数据集中,我已将所有不常见的词转换为标记(未知词)。

但是,当训练 RNN 将句子的一部分作为输入并预测句子的其余部分时,我不确定应该如何阻止网络生成标记。当网络在训练集中遇到一个未知(不频繁)的单词时,它的输出应该是什么?

示例:
句子:I went to the mall and bought a <ukn> and some groceries
网络输入:I went to the mall and bought a
当前网络输出:<unk> and some groceries
期望的网络输出:??? and some groceries

它应该输出什么而不是<unk>?

我不想构建一个输出它不知道的单词的生成器。

标签: machine-learningneural-networknlpword2vecrecurrent-neural-network

解决方案


RNN 将为您提供最有可能出现在文本中的标记样本。在您的代码中,您选择概率最高的令牌,在本例中为“unk”。

在这种情况下,您可以省略 «ukn» 标记,并简单地采用RNN 根据其呈现的概率值建议 的下一个最有可能的标记。


推荐阅读