machine-learning - 创建数据集的最佳实践
问题描述
我想创建一个用于人体姿势识别的数据集,我录制一组视频,然后从每个视频中提取一帧,然后将每个帧分类为相应的姿势。但问题是例如站立姿势,我为训练和验证集录制 3 分钟视频,每个姿势 3 分钟视频用于验证和训练集 x 姿势。我可以解决的问题是,我将在训练和验证集中获得相同数量的示例(示例:1000 个示例训练和 1000 个验证),这可能会给我带来问题吗?
解决方案
通常,当您对数据进行分类时,您将拥有比验证集更多的训练数据,就我而言,我通常希望将 75% 的数据作为训练,将 25% 的数据用于验证。尽管在您的情况下,您的训练数据似乎足够大,以至于数据中的任何异常值都不会影响您的分类算法。训练集的数据是否比验证集少也没关系,只要训练集足够大以充分训练您的算法并且不受异常值的影响。
推荐阅读
- python - 在 Python 3.5 中导入“asammdf”时出错
- python - discord.py (rewrite) 如何为 rps(rock, paper, scissors) 游戏创建获胜条件?
- configuration - 无法在 coc.nvim 中使用自动完成功能
- java - 我正在制作一个平均需要的程序
- java - 3 print hippity 的倍数和 4 print hop 的倍数?
- ios - 如何在 XCUITest 中访问 iOS 14 时间选择器
- java - 运行所有测试用例时,我的测试用例失败。但是单独跑的时候通过
- python - 如何动态生成外部 CSS?
- php - PHP 警告:mysqli_stmt_bind_param():类型定义字符串中的元素数与绑定变量数不匹配
- swift - Parse Server Swift Logic 用于抓取数组中包含的所有项目