首页 > 解决方案 > 基于 VGG 的 CNN 模型有时是否比现代架构更适合图像分类?

问题描述

我有一个图像分类任务要解决,但基于非常简单/好的术语:

所以我认为想出一个好的 CNN 解决方案应该很容易——而且确实如此。我使用自定义分类器 (Keras/TF) 创建了一个基于 VGG16 的模型。通过迁移学习,我能够在模型训练期间实现高达 100% 的验证准确度,因此一切都很好。

出于好奇,并且因为基于 VGG 的方法似乎有点“慢”,我还想尝试以更现代的模型架构为基础,所以我使用了ResNet50v2Xception。我对它进行了类似于基于 VGG 的模型的训练,并尝试了几次超参数修改等。但是,我无法达到比 95% 更好的验证准确度——比使用“旧”VGG 架构差得多。

因此我的问题是:鉴于这些“简单”(总是相同的)图像和只有两个类,VGG 模型是否可能比 ResNet 或 Xception 等现代网络更好的基础?还是更有可能是我的模型搞砸了,或者只是训练/超参数不正确?

标签: pythontensorflowkerasconv-neural-networkvgg-net

解决方案


推荐阅读