首页 > 解决方案 > StyleGAN 2 图像在 Tick 0 后完全变黑

问题描述

我正在我自己的数据集上训练 StyleGAN 2 - https://github.com/NVlabs/stylegan2

它在 Google Colab 中的单个 P100 上运行良好,但是当我将模型移动到 Vast.ai 并在多个 GPU 上尝试时,会发生一个奇怪的问题。

一切都工作到 Tick 0,在 Tick 1 之后,假图像全都出来了。

我的环境:

我的训练命令:

python3 run_training.py --num-gpus=4 --data-dir="/root/data/" --config=config-f --dataset=images1_tf --mirror-augment=true --metrics=none

在极少数情况下,它会起作用并生成正确的假货,但如果我用 ^C 中断训练并再次恢复,它就会开始生成全黑图像。

我尝试更改数据集,尝试使用不同的机器实例,但问题仍然存在。

标签: tensorflowmachine-learninggenerative-adversarial-network

解决方案


我在运行 Tensorflow 1.15 和 CUDA 10.2 的 2 个 GPU(在我的例子中是 GTX 1080 8GB 卡)上遇到了完全相同的问题......正如你提到的,它会训练 1 个刻度,然后所有后续的假货都是纯黑色的图像。一时兴起,我将我的 Nvidia 驱动程序从 440 升级到了 450,这也将 CUDA 提升到了 11。然后它开始工作并在第 1 次后生成正确的图像。


推荐阅读