tensorflow - Softmax 激活在损失 sparse_categorical_crossentropy 的情况下表现最差
问题描述
我有一个简单的 Keras 顺序模型。我有 N 个类别,我必须根据前一个点预测下一个点将属于哪个类别。
奇怪的是,当我从输出层移除 Softmax 激活函数时,性能会更好(损失更低,sparse_categorical_accuracy 最高)。作为损失,我使用 logits=True 的 sparse_categorical_crossentropy。
有什么理由吗?不应该是相反的吗?
提前感谢您的任何建议!
def build_model(vocab_size, embedding_dim, rnn_units, batch_size):
model = tf.keras.Sequential([
tf.keras.layers.Embedding(vocab_size, embedding_dim,
batch_input_shape=[batch_size, None]),
tf.keras.layers.GRU(rnn_units,
return_sequences=True,
stateful=True,
recurrent_initializer='glorot_uniform'),
tf.keras.layers.Dense(vocab_size, activation='softmax')
])
return model
model = build_model(
vocab_size = vocab_size,
embedding_dim=embedding_dim,
rnn_units=rnn_units,
batch_size=BATCH_SIZE)
def loss(labels, logits):
return tf.keras.losses.sparse_categorical_crossentropy(labels, logits, from_logits=True)
model.compile(optimizer='adam', loss=loss, metrics=['sparse_categorical_accuracy'])
EPOCHS = 5
history = model.fit(train_set, epochs=EPOCHS, validation_data=val_set,)
解决方案
简而言之,当您使用 option 时from_logits = True
,您是在告诉损失函数您的神经网络输出未标准化。由于您在最后一层使用 softmax 激活,因此您的输出确实是标准化的,因此您有两个选择:
- 正如您已经尝试过的那样,删除 softmax 激活。请记住,在此之后,您的输出概率将不会被标准化。
- 使用
from_logits = False
.
推荐阅读
- excel - 循环 Excel 工作簿刮板的错误处理程序
- apache-spark - spark mllib决策树中的sklearn决策树随机状态参数
- ezplatform - 如何使用 ezplatform 建模多对一关系?
- javascript - 将 NPM 项目迁移到 Apache
- postgresql - 如何使用 Inno Setup 检测和安装 PostgreSQL 服务器作为先决条件?
- angular - 如何在 Angular 中限制每个圆形文本框的一位数字?
- android - 写入下载文件夹给出错误打开失败 EPERM 操作不允许
- python-3.x - 在 Pandas 中将多列过滤代码合二为一
- laravel - 在 jenssegers/laravel-mongodb 中使用 where
- javascript - 按键事件后输入值不变