deep-learning - 复制粘贴不相等的数据集以使它们都相等是一种有效的方法吗?
问题描述
我正在使用医学图像(DICOM 图像)将它们分类为三种不同的类疾病,但我没有为每个类分配均匀的训练图像。复制和粘贴不相等的直到它们的数量都相等是一种有效的方法吗?如果不是什么应该是更好的方法?
解决方案
您的数据及其共同点存在不平衡。您的解决方案本质上是过采样,并且是一种已知的策略。我会使用正式的解决方案,例如np.random.choice
, 或np.random.rand
并实施引导程序。或者,itertools.combinations
是另一种方法
背景有 3 种方法可以解决它,一种是欠采样、过采样,第三种是更改性能指标。
如果您说疾病 X、Y 和 Z 的不平衡是 30:30:40。欠采样是通过重新采样删除 Z 来删除多余部分以达到平衡。
如果 X、Y、Z 的比例为 15:15:70,则可以考虑通过重新采样 X 和 Y 来进行过采样以达到平衡。就个人而言,我不是粉丝,只是我的看法。
或者,您可以简单地使用精度和召回作为性能指标,而不是准确度。因此使用很像 ROC 的精确召回曲线。
最好的解决方案就是收集更多数据,但这通常是不切实际的。
在我看来,欠采样是一个非常好的解决方案,但是当您最终删除大量数据时会产生问题。但是,您当然可以通过重复或更具体地通过大量重复来解决此问题,并使用您给定的指标,直到您对已达到稳定性感到满意为止。
推荐阅读
- python - 使用numpy内存映射python提取文件
- curl - 我应该如何为 ftp 下载设置 curl 超时?
- c# - 需要将我的枚举插入 C# 中的组合框
- python - NLP - Python - 条件频率分布
- asp.net-mvc - ASP NET MVC 上一页
- php - 如何防止标题在 php mysqli 中重复
- list - 使用 Haskell 上的递归返回给定正整数的元组列表
- http - 即使在重新启动 IDE 后,FLUTTER 中的未定义名称“http”
- markdown - 摆脱 Sphinx 中的“重复标签”警告
- java - maven-shade-plugin 输出带有 shadedArtifactAttached 错误被安装覆盖