tensorflow - StyleGAN 2 图像在 Tick 0 后完全变黑
问题描述
我正在我自己的数据集上训练 StyleGAN 2 - https://github.com/NVlabs/stylegan2
它在 Google Colab 中的单个 P100 上运行良好,但是当我将模型移动到 Vast.ai 并在多个 GPU 上尝试时,会发生一个奇怪的问题。
一切都工作到 Tick 0,在 Tick 1 之后,假图像全都出来了。
我的环境:
- 张量流 1.15
- CUDA 10.0
我的训练命令:
python3 run_training.py --num-gpus=4 --data-dir="/root/data/" --config=config-f --dataset=images1_tf --mirror-augment=true --metrics=none
在极少数情况下,它会起作用并生成正确的假货,但如果我用 ^C 中断训练并再次恢复,它就会开始生成全黑图像。
我尝试更改数据集,尝试使用不同的机器实例,但问题仍然存在。
解决方案
我在运行 Tensorflow 1.15 和 CUDA 10.2 的 2 个 GPU(在我的例子中是 GTX 1080 8GB 卡)上遇到了完全相同的问题......正如你提到的,它会训练 1 个刻度,然后所有后续的假货都是纯黑色的图像。一时兴起,我将我的 Nvidia 驱动程序从 440 升级到了 450,这也将 CUDA 提升到了 11。然后它开始工作并在第 1 次后生成正确的图像。
推荐阅读
- html - 将轮播位置更改为绝对位置并导致其他s 也移动。我该如何解决?
- sublimetext3 - 在 Sublime 中,如何在最终引用特定字符后删除所有文本?
- php - 如何在 php 对象 stdClass 中调用带有参数的函数?
- python - 如何制作可迭代对象(任何类型)的 _modified_ 副本?
- php - PHP:如何将二进制字符串转换为普通字符串以避免MySql“非法混合排序规则”错误
- php - ChartJS - 显示 MySql 表中的数据时格式化日期时间 X 轴
- laravel - 带 .dist 和不带的文件有什么区别
- xamarin - 按钮不适合屏幕 xamarin
- python - 在 matplotlib 中向散点图添加连接线
- c - 为什么会出现分段 11 错误?