首页 > 解决方案 > 创建数据集的最佳实践

问题描述

我想创建一个用于人体姿势识别的数据集,我录制一组视频,然后从每个视频中提取一帧,然后将每个帧分类为相应的姿势。但问题是例如站立姿势,我为训练和验证集录制 3 分钟视频,每个姿势 3 分钟视频用于验证和训练集 x 姿势。我可以解决的问题是,我将在训练和验证集中获得相同数量的示例(示例:1000 个示例训练和 1000 个验证),这可能会给我带来问题吗?

标签: machine-learningdeep-learningcomputer-vision

解决方案


通常,当您对数据进行分类时,您将拥有比验证集更多的训练数据,就我而言,我通常希望将 75% 的数据作为训练,将 25% 的数据用于验证。尽管在您的情况下,您的训练数据似乎足够大,以至于数据中的任何异常值都不会影响您的分类算法。训练集的数据是否比验证集少​​也没关系,只要训练集足够大以充分训练您的算法并且不受异常值的影响。


推荐阅读