tensorflow - val_loss 没有从 inf 改善
问题描述
我正在谷歌 colab 上训练机器学习模型。以前,在 P100 和 V100 上进行训练时,一切都很顺利。但是,我最近有 A100。这看起来很棒,但现在每次我使用它时,我的损失值都是 nan。我的代码和库版本没有改变。事实上,昨天我又买了一台 V100,一切都很好。是否可能需要一些库版本?我听说批量大小也可能很重要。我当前的批量大小是 8。这是我的库:
absl-py==0.9.0
astor==0.8.1
gast==0.2.2
google-pasta==0.1.8
grpcio==1.26.0
h5py==2.10.0
Keras==2.3.1
Keras-Applications==1.0.8
Keras-Preprocessing==1.1.0
Markdown==3.1.1
numpy==1.18.5
opencv-contrib-python==4.1.2.30
opt-einsum==3.1.0
protobuf==3.12.0
PyYAML==5.3
scipy==1.4.1
six==1.14.0
tensorboard==1.15.0
tensorflow==1.15.0
tensorflow-estimator==1.15.1
termcolor==1.1.0
tqdm==4.41.1
Werkzeug==0.16.0
wrapt==1.11.2
解决方案
推荐阅读
- c++ - 如何从 doxygen 创建的 html 改回代码
- php - CSS 在 (( Create )) 控制器中不起作用 - laravel
- php - PHP 中 mysqli_query 的问题 - 查询在 phpmyadmin 中有效,在 PHP 中无效
- entity-framework - 如何防止实体框架中的 ID 更改漏洞
- package - 全局声明特殊空间时违反了对包 COMMON-LISP 的锁定
- android - 无法使用 Android Studio 推送到 GitHub
- reactjs - styled-components:使用 `& + &` 选择器并根据 props 进行适配
- c++ - 我对 leetcode 72 上的递归方法不知所措
- node.js - 使用 docker-compose 将 NodeJS-App 连接到 MongoDB
- c# - 使单选按钮列表在浏览器中无需 js 即可点击,使用 asp webforms