machine-learning - 迁移学习仅适用于可训练设置为 false
问题描述
我有两个这样初始化的模型
vgg19 = keras.applications.vgg19.VGG19(
weights='imagenet',
include_top=False,
input_shape=(img_height, img_width, img_channels))
for layer in vgg19.layers:
layer.trainable = False
model = Sequential(layers=vgg19.layers)
model.add(Flatten())
model.add(Dense(1024, activation='relu'))
model.add(Dense(512, activation='relu'))
model.add(Dense(10, activation='softmax'))
opt = Adam(learning_rate=0.001, beta_1=0.9)
model.compile(
loss='categorical_crossentropy',
optimizer=opt,
metrics=['accuracy'])
和
vgg19_2 = keras.applications.vgg19.VGG19(
weights='imagenet',
include_top=False,
input_shape=(img_height, img_width, img_channels))
model2 = Sequential(layers=vgg19_2.layers)
model2.add(Dense(1024, activation='relu'))
model2.add(Dense(512, activation='relu'))
model2.add(Dense(10, activation='softmax'))
opt = Adam(learning_rate=0.001, beta_1=0.9)
model2.compile(
loss='categorical_crossentropy',
optimizer=opt,
metrics=['accuracy'])
换句话说,唯一的区别是第二个模型没有将 vgg19 层的可训练参数设置为 false。不幸的是,可训练设置为 true 的模型无法学习数据。
当我使用 model.fit 我得到
Trainable set to false:
Epoch 1/51
2500/2500 [==============================] - 49s 20ms/step - loss: 1.4319 - accuracy: 0.5466 - val_loss: 1.3951 - val_accuracy: 0.5693
Epoch 2/51
2500/2500 [==============================] - 47s 19ms/step - loss: 1.1508 - accuracy: 0.6009 - val_loss: 0.7832 - val_accuracy: 0.6023
Epoch 3/51
2500/2500 [==============================] - 48s 19ms/step - loss: 1.0816 - accuracy: 0.6256 - val_loss: 0.6782 - val_accuracy: 0.6153
Epoch 4/51
2500/2500 [==============================] - 47s 19ms/step - loss: 1.0396 - accuracy: 0.6450 - val_loss: 1.3045 - val_accuracy: 0.6103
该模型在几个 epoch 内训练到大约 65% 的准确率。但是使用 model2 应该能够做出更好的预测(因为有更多可训练的参数)我得到:
Epoch 1/5
2500/2500 [==============================] - 226s 90ms/step - loss: 2.3028 - accuracy: 0.0980 - val_loss: 2.3038 - val_accuracy: 0.1008
Epoch 2/5
2500/2500 [==============================] - 311s 124ms/step - loss: 2.3029 - accuracy: 0.0980 - val_loss: 2.2988 - val_accuracy: 0.1017
Epoch 3/5
2500/2500 [==============================] - 306s 123ms/step - loss: 2.3029 - accuracy: 0.0980 - val_loss: 2.3052 - val_accuracy: 0.0997
Epoch 4/5
2500/2500 [==============================] - 321s 129ms/step - loss: 2.3029 - accuracy: 0.0972 - val_loss: 2.3028 - val_accuracy: 0.0997
Epoch 5/5
2500/2500 [==============================] - 300s 120ms/step - loss: 2.3028 - accuracy: 0.0988 - val_loss: 2.3027 - val_accuracy: 0.1007
然后,当我尝试计算数据的权重梯度时,我只得到零。我知道将像 vgg 这样的大神经网络训练到最佳状态可能需要很长时间,但考虑到最后 3 层的计算梯度在两种情况下应该非常相似,为什么精度这么低?训练更多时间并没有改善。
解决方案
试试这个:
- 训练第一个模型,该模型设置
trainable
为False
。您不必将其训练至饱和,因此我将从您的 5 个时期开始。 - 返回并设置
trainable
为True
所有vgg19
参数。然后,根据文档,您可以重建并重新编译模型以使这些更改生效。 - 继续对重建模型进行训练,该模型现在具有可用于调整的所有参数。
在迁移学习中,完全冻结迁移层以保存它们是很常见的。在训练的早期阶段,您的附加层不知道该做什么。这意味着当它到达传输层时会有一个嘈杂的梯度,这将迅速将它们从之前调整好的权重中“失谐”。
将它们放在一些代码中,它看起来像这样。
# Original code. Transfer VGG and freeze the weights.
vgg19 = keras.applications.vgg19.VGG19(
weights='imagenet',
include_top=False,
input_shape=(img_height, img_width, img_channels))
for layer in vgg19.layers:
layer.trainable = False
model = Sequential(layers=vgg19.layers)
model.add(Flatten())
model.add(Dense(1024, activation='relu'))
model.add(Dense(512, activation='relu'))
model.add(Dense(10, activation='softmax'))
opt = Adam(learning_rate=0.001, beta_1=0.9)
model.compile(
loss='categorical_crossentropy',
optimizer=opt,
metrics=['accuracy'])
model.fit()
# New second stage: unfreeze and continue training.
for layer in vgg19.layers:
layer.trainable = True
full_model = Sequential(layers=model.layers)
full_model.compile(
loss='categorical_crossentropy',
optimizer=opt,
metrics=['accuracy'])
full_model.fit()
您可能需要调整微调阶段的学习率。开始不是必须的,只是要记住一些事情。
第三种选择是使用判别式学习率,正如 Jeremy Howard 和 Sebastian Ruder 在ULMFiT 论文中介绍的那样。这个想法是,在迁移学习中,您通常希望后面的层比早期的迁移层学习得更快。所以你实际上为不同的层设置了不同的学习率。fastai 库有一个 PyTorch 实现,它通过将模型划分为“层组”并为每个组允许不同的参数来工作。
推荐阅读
- python - 多页爬虫给出错误的结果
- php - PHP多个事件发送
- flutter - 致命错误:找不到“Flutter/Flutter.h”文件#import
- ios - DateFormatter 没有给出正确的结果
- c - 如何使部分仅在运行时
- penetration-testing - 使用 burp 套件的密码猜测攻击中显示的状态码不正确
- angular - 如何从输入中过滤更多单词的数组中的数据?
- javascript - v-for 循环中的动态 v-model 复选框
- python - 如果程序很慢,Pygame 窗口没有响应
- javascript - 如何使用头盔或 ssr api 导入静态 js 文件以及如何避免 Uncaught SyntaxError?