首页 > 解决方案 > 复制粘贴不相等的数据集以使它们都相等是一种有效的方法吗?

问题描述

我正在使用医学图像(DICOM 图像)将它们分类为三种不同的类疾病,但我没有为每个类分配均匀的训练图像。复制和粘贴不相等的直到它们的数量都相等是一种有效的方法吗?如果不是什么应该是更好的方法?

标签: deep-learningconv-neural-networkdicom

解决方案


您的数据及其共同点存在不平衡。您的解决方案本质上是过采样,并且是一种已知的策略。我会使用正式的解决方案,例如np.random.choice, 或np.random.rand并实施引导程序。或者,itertools.combinations是另一种方法

背景有 3 种方法可以解决它,一种是欠采样、过采样,第三种是更改性能指标。

如果您说疾病 X、Y 和 Z 的不平衡是 30:30:40。欠采样是通过重新采样删除 Z 来删除多余部分以达到平衡。

如果 X、Y、Z 的比例为 15:15:70,则可以考虑通过重新采样 X 和 Y 来进行过采样以达到平衡。就个人而言,我不是粉丝,只是我的看法。

或者,您可以简单地使用精度和召回作为性能指标,而不是准确度。因此使用很像 ROC 的精确召回曲线。

最好的解决方案就是收集更多数据,但这通常是不切实际的。


在我看来,欠采样是一个非常好的解决方案,但是当您最终删除大量数据时会产生问题。但是,您当然可以通过重复或更具体地通过大量重复来解决此问题,并使用您给定的指标,直到您对已达到稳定性感到满意为止。


推荐阅读