python - 为什么当我尝试使用 fit_generator 训练 Keras 时,它会在第一个 epoch 停止?
问题描述
我正在使用 Keras 微调现有的 VGG16 模型,并使用 fit_generator 来训练最后 4 层。这是我正在使用的相关代码:
# Create the model
model = models.Sequential()
# Add the vgg convolutional base model
model.add(vgg_conv)
# Add new layers
model.add(layers.Flatten())
model.add(layers.Dense(1024, activation='relu'))
model.add(layers.Dropout(0.5))
model.add(layers.Dense(5, activation='softmax'))
# Show a summary of the model. Check the number of trainable params
model.summary()
from keras.preprocessing.image import ImageDataGenerator
train_datagen = ImageDataGenerator(
rescale=1./255,
rotation_range=20,
width_shift_range=0.2,
height_shift_range=0.2,
horizontal_flip=True,
fill_mode='nearest')
validation_datagen = ImageDataGenerator(rescale=1./255)
#Change the batchsize according to the system RAM
train_batchsize = 100
val_batchsize = 10
train_dir='training_data/train'
validation_dir='training_data/validation'
train_generator = train_datagen.flow_from_directory(
train_dir,
target_size=(image_size1, image_size2),
batch_size=train_batchsize,
class_mode='categorical')
validation_generator = validation_datagen.flow_from_directory(
validation_dir,
target_size=(image_size1, image_size2),
batch_size=val_batchsize,
class_mode='categorical',
shuffle=False)
# Compile the model
model.compile(loss='categorical_crossentropy',
optimizer=optimizers.RMSprop(lr=1e-4),
metrics=['acc'])
# Train the model
history = model.fit_generator(
train_generator,
steps_per_epoch=train_generator.samples/train_generator.batch_size,
epochs=30,
validation_data=validation_generator,
validation_steps=validation_generator.samples/validation_generator.batch_size,
verbose=1)
问题是当我运行我的脚本来训练模型时,它可以正常工作,直到实际训练开始。在这里,它卡在 epoch 1/30。
Layer (type) Output Shape Param #
=================================================================
vgg16 (Model) (None, 15, 20, 512) 14714688
_________________________________________________________________
flatten_1 (Flatten) (None, 153600) 0
_________________________________________________________________
dense_1 (Dense) (None, 1024) 157287424
_________________________________________________________________
dropout_1 (Dropout) (None, 1024) 0
_________________________________________________________________
dense_2 (Dense) (None, 5) 5125
=================================================================
Total params: 172,007,237
Trainable params: 164,371,973
Non-trainable params: 7,635,264
_________________________________________________________________
Found 1989 images belonging to 5 classes.
Found 819 images belonging to 5 classes.
Epoch 1/30
不幸的是,这不好。我在网上环顾四周,我相信问题出在使用 fit_generator 上。Keras 中 fit_generator 的代码有问题。然而,其他大多数遇到 epoch 问题的人最终都会卡在后面的 epoch 上(例如,有人想运行 20 个 epoch 并在 19/20 epoch 停止)。
我将如何解决这个问题?这是我第一次做深度学习,所以我非常困惑,希望能得到任何帮助。我只需要转向使用 model.fit() 吗?
解决方案
您必须将有效的整数传递给fit_generator()
assteps_per_epoch
和validation_steps
参数。所以你可以使用如下:
history = model.fit_generator(
train_generator,
steps_per_epoch=train_generator.samples//train_generator.batch_size,
epochs=30,
validation_data=validation_generator, validation_steps=validation_generator.samples//validation_generator.batch_size,
verbose=1)
第二个因素我可以看到您的模型具有165M
可训练的参数,该参数具有巨大的内存消耗,特别是与高批量大小相结合。您应该使用分辨率较低的图像,请注意,在许多情况下,我们可以使用它们获得更好的结果。
推荐阅读
- python - 为什么 ogr2ogr 试图打开它正在运行的应用程序?
- python - Pickle 转储多个变量并在另一个目录的另一个文件中读取它们
- visual-studio-code - VSCode:更改未选择事件的背景颜色
- android-studio - 是否可以从 CLI 生成 Android 启动器图标?
- javascript - 如何优雅地检查连续物体的存在
- maven - PMD maven 插件 html 报告 - 如何获得摘要?
- matlab - 从 HSI 转换为 RGB
- php - 如何将数组传递到教义原始查询中的 IN 语句中?
- linux - 为什么编辑 .fini_array 不会改变程序的进程?
- sql-server - 面向初学者的 VS 代码中的 SQL 服务器