首页 > 解决方案 > 在 python 中为分类问题生成合成数据的正确开始

问题描述

我有一个包含 9 个特征和 1300 行的数据集。我试图在我拥有的当前数据上生成合成数据。输出分为 2 个选项。即 1 和 0 是(1-是和 0-否)这里的问题是几乎 1100 个案例的输出为“0”,而 200 个案例的输出为“1”。以前,我尝试过训练,但结果并不好。我的教授建议我研究合成数据并增加输出“1”的案例,以便有助于开发机器学习模型。我对合成数据一无所知。我承认。我只是不知道从哪里开始。有人可以帮忙吗?如何解决这类问题。任何建议表示赞赏?任何参考代码都对学习有用。谢谢

标签: pythondata-sciencesynthetic

解决方案


据我了解,您需要使用数据增强。

看看这个和/或这个

您将能够大幅增加数据集的大小,并可能提高您的训练准确性。

与此类似的东西: 类似的东西


推荐阅读