python - 在为模型训练选择训练测试拆分时,它是否从所有类中选择偶数个样本?
问题描述
假设我有一个 CNN 模型来对手写数字 1 到 10 进行分类。我正在使用一个包含 20,000 个样本的数据集,并且我进行了 50:50 的火车测试拆分。
这让我有 10,000 个用于培训和测试。它会自动从每个类中挑选 1000 张图像进行测试/训练,还是会近似?
我正在尝试一个类似的问题(具有不同数量的样本和类),但我注意到测试数据没有均匀分布。例如,它有 1010 个正在测试的数字,但只有 990 个数字二。
这是正常的吗?我找不到任何证明这一点的文件。我的数据集足够大,小差异无关紧要,但我仍然想确认。
谢谢!
解决方案
测试列车加载器将近似拆分,因为它使用每个时期的替换抽样来生成测试批次。
推荐阅读
- jquery - Bootstrap 4 查找选定的表行索引
- postgresql - 为什么开放街道地图 (OSM) 使用 PostgreSQL 数据库?
- json - 使用其他表中的键在 Oracle 中进行动态 JSON 解析
- amazon-web-services - Cognito 用户的访问令牌在服务器端可用吗?
- django - 在 Django ORM 的子查询中返回多个值
- google-cloud-platform - 出现错误:[Errno 60] Google 函数创建操作超时
- javascript - 如何让 app.js 调用外部包
- node.js - 无法使用 NodeJS Azure 函数从 Cosmos DB(MongoDB 架构)返回 JSON
- android - 屏幕关闭时Android后台服务停止
- ajax - 为什么我的 ajax 在查询 yelp api 时出现验证错误?