首页 > 解决方案 > val_loss 没有从 inf 改善

问题描述

我正在谷歌 colab 上训练机器学习模型。以前,在 P100 和 V100 上进行训练时,一切都很顺利。但是,我最近有 A100。这看起来很棒,但现在每次我使用它时,我的损失值都是 nan。我的代码和库版本没有改变。事实上,昨天我又买了一台 V100,一切都很好。是否可能需要一些库版本?我听说批量大小也可能很重要。我当前的批量大小是 8。这是我的库:

absl-py==0.9.0
astor==0.8.1
gast==0.2.2
google-pasta==0.1.8
grpcio==1.26.0
h5py==2.10.0
Keras==2.3.1
Keras-Applications==1.0.8
Keras-Preprocessing==1.1.0
Markdown==3.1.1
numpy==1.18.5
opencv-contrib-python==4.1.2.30
opt-einsum==3.1.0
protobuf==3.12.0
PyYAML==5.3
scipy==1.4.1
six==1.14.0
tensorboard==1.15.0
tensorflow==1.15.0
tensorflow-estimator==1.15.1
termcolor==1.1.0
tqdm==4.41.1
Werkzeug==0.16.0
wrapt==1.11.2

标签: tensorflowgpunan

解决方案


推荐阅读