python - Keras IMDB 数据集 0 与 ovv_char
问题描述
我正在查看Keras 预处理 IMDB 数据集的文档,其中说:
按照惯例,“0”不代表特定的单词,而是用来编码任何未知的单词。
但是,当我尝试时,我没有在数据中看到“0”:
(inputTrain, yTrain), (inputTest, yTest) = imdb.load_data(num_words=vocabSize)
我错过了什么吗?我也没有看到这里的预处理代码中添加了“0” 。
解决方案
按照惯例,“0”不代表特定的单词,而是用来编码任何未知的单词。
这里的文档是错误的。在 Keras IMDB 数据集中,值:
- “0”代表填充(即使所有序列根据需要具有相同的长度),
- “1”代表开始标记,即表示文档的开始,
- “2”代表OOV(Out-Of-Vocabulary)标记,即表示所有不在字典中的标记,或者文档中使用的未知单词。
因此,在 Keras IMDB 数据集中,“2”用于表示未知单词,而不是“0”。
推荐阅读
- snakemake - Snakemake 在规则中使用相同的输入和输出
- python - 使用多文件夹和文件和 TensorFlow 部署 exe Kivy
- mysql - 带有 MySQL 和 Maria DB 提交和回滚问题的 Spring Boot JDBCTemplate
- java - 如何确保 Java Web Start 应用程序的单个实例正在客户端计算机上运行?
- javascript - 递归 axios 调用
- python - pandas:在组内使用条件进行迭代
- c# - 如何在 ASP.NET Core 重写模块中使用 {PATH_INFO}?
- android - Angular/Cordova 应用程序 html5 视频标签无法在 Android 上播放
- dependencies - 如何在理解中一次创建多个蝴蝶图?
- python - Freeze 方法在 Frozen Flask 中遇到文件存在错误