首页 > 解决方案 > 在为模型训练选择训练测试拆分时,它是否从所有类中选择偶数个样本?

问题描述

假设我有一个 CNN 模型来对手写数字 1 到 10 进行分类。我正在使用一个包含 20,000 个样本的数据集,并且我进行了 50:50 的火车测试拆分。

这让我有 10,000 个用于培训和测试。它会自动从每个类中挑选 1000 张图像进行测试/训练,还是会近似?

我正在尝试一个类似的问题(具有不同数量的样本和类),但我注意到测试数据没有均匀分布。例如,它有 1010 个正在测试的数字,但只有 990 个数字二。

这是正常的吗?我找不到任何证明这一点的文件。我的数据集足够大,小差异无关紧要,但我仍然想确认。

谢谢!

标签: pythontensorflowmachine-learningtestingtraining-data

解决方案


测试列车加载器将近似拆分,因为它使用每个时期的替换抽样来生成测试批次。


推荐阅读