tensorflow - 使用 Keras 时,第一层的权重在训练后不会改变
问题描述
之前有人讨论过这个问题,但他们普遍收敛到梯度消失作为这个问题的根源。
但在我的模型中,只有两个隐藏层不太可能卡在梯度消失上,如下所示:
from __future__ import print_function
import keras
from keras.datasets import mnist
from keras.models import Sequential
from keras.layers import Dense, Dropout
from keras.optimizers import RMSprop
batch_size = 128
num_classes = 10
epochs = 20
(x_train, y_train), (x_test, y_test) = mnist.load_data()
x_train = x_train.reshape(60000, 784)
x_test = x_test.reshape(10000, 784)
x_train = x_train.astype('float32')
x_test = x_test.astype('float32')
x_train /= 255
x_test /= 255
y_train = keras.utils.to_categorical(y_train, num_classes)
y_test = keras.utils.to_categorical(y_test, num_classes)
model = Sequential()
model.add(Dense(512, activation='relu', kernel_initializer='random_uniform',input_shape=(784,)))
model.add(Dropout(0.2))
model.add(Dense(512, kernel_initializer='random_uniform',activation='relu'))
model.add(Dropout(0.2))
model.add(Dense(num_classes, kernel_initializer='random_uniform',activation='softmax'))
print (model.get_weights().__len__())
for i in range(6):
print (str(i), "th layer shape: ", model.get_weights()[i].shape ,model.get_weights()[i].__len__(), "mean: ", np.mean(model.get_weights()[i]), "std dev: ", np.std(model.get_weights()[i]))
print ("Before Training")
print (model.get_weights()[i][0])
class LossHistory(keras.callbacks.Callback):
def on_train_begin(self, logs={}):
self.losses = []
def on_batch_end(self, batch, logs={}):
self.losses.append(logs.get('loss'))
batch_history = LossHistory()
model.summary()
model.compile(loss='categorical_crossentropy',
optimizer=RMSprop(),
metrics=['accuracy'])
history = model.fit(x_train, y_train,
batch_size=batch_size,
epochs=epochs,
verbose=1,
validation_data=(x_test, y_test),
callbacks = [batch_history])
for i in range(6):
print (str(i), "th layer shape: ", model.get_weights()[i].shape ,model.get_weights()[i].__len__(), "mean: ", np.mean(model.get_weights()[i]), "std dev: ", np.std(model.get_weights()[i]))
print ("After Training Training")
print (model.get_weights()[i][0])
我在训练之前/之后截取了权重的截图。总之,第一层的权重在训练后没有变化,但第二层的权重确实发生了变化。(由于参数较多,我只展示了权重矩阵第一行的一部分)
解决方案
经过一些调试,我意识到权重矩阵在训练后确实发生了变化,即使 (784, 512) 矩阵的第一行(在屏幕截图中)看起来从未改变过。
原因是我使用的是经过预处理的 mnist 数据,这是一个手写数字图像数据集,只有那些有墨水的部分才会用特定的 RGB 值编码。换句话说,那些边缘区域都是'0'。例如,图像二维矩阵的第一行总是'0'。因此,在第一个隐藏层的权重矩阵中,512 个权重向量中的每一个的第一个条目将始终使用 (dJ/da_1)*(da_1/dw_i1) 进行更新,而 (da_1/dw_i1) = x_1 即 '如上所述,在所有训练样本中为 0'。所以它永远不会更新。
推荐阅读
- python - 适用于终端,但不适用于 VS 代码
- r - 是否有“正确”的方式在 R 包内部使用导出的数据?
- windows - 多个png文件到多个ico文件:奇怪的行为
- svn - 构建项目在 svn 存储库更新中被阻止
- scala - 使用 Scala 删除名称和年龄组合上的重复项并打印结果,不要使用高级 API/框架,如 pandas /spark-sql 等
- android - 嵌套回收器视图 IndexOutOfBoundsException
- c# - 使用 Microsoft Exchange Server WebServices 下载附件 PDF
- php - Lumen 5.6 php artisan migrate --env=testing 不工作
- sql - 为什么加入表后初始的 COUNT 值会发生变化?
- python - 为什么我在 PyGame 中的平台游戏突然这么慢?