首页 > 解决方案 > 使用哪种深度学习模型来捕获图像中的次要特征?

问题描述

我的课程与其他课程的功能略有不同:ex - 此图像中有扣(将其视为一个课程)https://6c819239693cc4960b69-cc9b957bf963b53239339d3141093094.ssl.cf3.rackcdn.com/1000006329245-822018-Black-黑色-1000006329245-822018_01-345.jpg

但这张图片与它非常相似,但没有扣: https ://sc01.alicdn.com/kf/HTB1ASpYSVXXXXbdXpXXq6xXFXXXR/latest-modern-classic-chappal-slippers-for-men.jpg

我对在这种实际学习像素到像素值的情况下使用哪种模型有点困惑。

任何想法都会很明显。谢谢 !!

我已经尝试过 Inception、Resnet 等模型。

使用较少量的训练数据(每类 300-400 个),我们可以达到良好的召回率/精度/F1 分数。

标签: machine-learningdeep-learningcomputer-visiontransfer-learning

解决方案


由于数据集较小,您可能想研究迁移学习,您可以做的是使用迁移的 ResNet 模型作为特征提取器,并在其上尝试 YOLO(您只看一次)算法,查看每个窗口(看使用 ConvNets 的滑动窗口实现)获得皮带扣,并在此基础上对图像进行分类。

根据我对您的数据集的理解,要执行上述方法,您需要根据 YOLO 算法的要求重新注释您的数据集。

要查看上述方法的示例,请访问https://mc.ai/implementing-yolo-using-resnet-as-feature-extractor/

编辑如果您有 XML 注释数据集并且需要将其转换为 csv 以遵循上述示例,请使用https://github.com/datitran/racoon_dataset

快乐的建模。


推荐阅读