首页 > 解决方案 > Keras IMDB 数据集 0 与 ovv_char

问题描述

我正在查看Keras 预处理 IMDB 数据集的文档,其中说:

按照惯例,“0”不代表特定的单词,而是用来编码任何未知的单词。

但是,当我尝试时,我没有在数据中看到“0”:

(inputTrain, yTrain), (inputTest, yTest) = imdb.load_data(num_words=vocabSize)

我错过了什么吗?我也没有看到这里的预处理代码中添加了“0” 。

标签: pythontensorflowkeras

解决方案


按照惯例,“0”不代表特定的单词,而是用来编码任何未知的单词。

这里的文档是错误的。在 Keras IMDB 数据集中,值:

  • “0”代表填充(即使所有序列根据需要具有相同的长度),
  • “1”代表开始标记,即表示文档的开始,
  • “2”代表OOV(Out-Of-Vocabulary)标记,即表示所有不在字典中的标记,或者文档中使用的未知单词

因此,在 Keras IMDB 数据集中,“2”用于表示未知单词,而不是“0”。


推荐阅读