python - Keras:训练性能在完全相同的数据和架构下是不同的。唯一的区别是使用 .Sequential() 或 .Model()
问题描述
下面的模型来自Keras
网站,它的行为完全符合预期。它用 定义keras.models.Sequential()
。我想将其转换为定义,keras.models.Model()
以使其更灵活以供我将来使用。但是在我转换之后,性能直线下降。
您可以在Keras
网站上找到原始模型:
def build_model():
model = Sequential([
layers.Dense(64, activation=tf.nn.relu, input_shape=[len(train_dataset.keys())]),
layers.Dense(64, activation=tf.nn.relu),
layers.Dense(1)
])
optimizer = keras.optimizers.Adam()
model.compile(loss='mean_squared_error',
optimizer=optimizer,
metrics=['mean_absolute_error', 'mean_squared_error'])
return model
model = build_model()
model.summary()
_________________________________________________________________
Layer (type) Output Shape Param #
=================================================================
dense_22 (Dense) (None, 64) 640
_________________________________________________________________
dense_23 (Dense) (None, 64) 4160
_________________________________________________________________
dense_24 (Dense) (None, 1) 65
=================================================================
Total params: 4,865
Trainable params: 4,865
Non-trainable params: 0
_________________________________________________________________
以下代码是我的转换:
def build_model_base():
input = Input(shape=[len(train_dataset.keys())])
x = Dense(64, activation='relu', name="dense1")(input)
x = Dense(64, activation='relu', name="dense2")(x)
output = Dense(1, activation='sigmoid', name='output')(x)
model = Model(input=[input], output=[output])
optimizer = keras.optimizers.Adam()
model.compile(loss='mean_squared_error',
optimizer=optimizer,
metrics=['mean_absolute_error', 'mean_squared_error'])
return model
_________________________________________________________________
Layer (type) Output Shape Param #
=================================================================
input_18 (InputLayer) (None, 9) 0
_________________________________________________________________
dense1 (Dense) (None, 64) 640
_________________________________________________________________
dense2 (Dense) (None, 64) 4160
_________________________________________________________________
output (Dense) (None, 1) 65
=================================================================
Total params: 4,865
Trainable params: 4,865
Non-trainable params: 0
我能看到的唯一区别是计数时.Sequential
不计数,但我不相信它们会使模型结构不同。但是,性能是:input layer
.Model
.Sequential
而.Model()
我转换的性能是:
谁能告诉我我做错了什么?
其他一些上下文:
我读过这篇文章,但我的代码都在 Google Colab 的 CPU 上运行
print(keras.__version__) # 2.0.4
print(tf.__version__) #1.14.0-rc1
绘制损失的代码:
def plot_history(history):
hist = pd.DataFrame(history.history)
hist['epoch'] = history.epoch
plt.figure()
plt.xlabel('Epoch')
plt.ylabel('Mean Abs Error [MPG]')
plt.plot(hist['epoch'], hist['mean_absolute_error'],
label='Train Error')
plt.plot(hist['epoch'], hist['val_mean_absolute_error'],
label = 'Val Error')
y_max = max(hist['val_mean_absolute_error'])
plt.ylim([0,y_max])
plt.legend()
plt.figure()
plt.xlabel('Epoch')
plt.ylabel('Mean Square Error [$MPG^2$]')
plt.plot(hist['epoch'], hist['mean_squared_error'],
label='Train Error')
plt.plot(hist['epoch'], hist['val_mean_squared_error'],
label = 'Val Error')
y_max = max(hist['val_mean_squared_error'])
plt.ylim([0,y_max])
plt.legend()
plt.show()
训练模型的代码(两种模型完全相同):
his_seq = model.fit(normed_train_data.values, train_labels.values,
batch_size=128,
validation_split = 0.1,
epochs = 100,
verbose=0)
plot_history(his_seq)
任何建议表示赞赏!
解决方案
在 keras 的密集层以及您构建的顺序模型的输出层中默认使用“线性”激活函数。
但是您在转换中将激活函数指定为“sigmoid”,这可能会有所不同。
下面是 Keras 提供的默认激活函数的说明:
activation: Activation function to use (see activations). If you don't specify anything, no activation is applied (ie. "linear" activation: a(x) = x).
推荐阅读
- docker - Airflow DockerOperator 卷和挂载
- amazon-s3 - 您可以在 AWS Athena 上运行 SOUNDEX 查询吗?
- python - 列表理解字符串交替模式递增
- sql - 将 sql while 循环重构为常规插入
- powershell - 使用 YAML 管道部署 Azure 分析服务和 Azure DB 连接
- javascript - 使用 map 函数创建 React 组件
- python - 根据列名将一个热编码列汇总到它们的各个列中
- javascript - 角箭头函数,“this”未定义
- fiddler - 如何在 FiddlerScript 中添加更多监听端口?
- python - 如何获取没有明确真实链接的html标签的下载链接?