首页 > 解决方案 > 如何检查 keras 训练是否已经在 GPU 中运行?

问题描述

有时我犯了一个错误,尝试在同一个 GPU(两个不同的脚本)中使用 keras 同时运行两个训练,导致我的机器崩溃或中断两个训练。

如果有一些训练正在运行,我希望能够在我的脚本中进行测试,因此要么更改 gpu,要么停止新的训练。

我发现寻找答案的唯一提示是用来nvidia-smi检查在 gpus 中运行的进程?

nvidia-smi 输出示例:

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 411.63                 Driver Version: 411.63                    |
|-------------------------------+----------------------+----------------------+
| GPU  Name            TCC/WDDM | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  TITAN Xp           WDDM  | 00000000:03:00.0 Off |                  N/A |
| 42%   67C    P2    81W / 250W |  10114MiB / 12288MiB |     54%      Default |
+-------------------------------+----------------------+----------------------+
|   1  TITAN Xp           WDDM  | 00000000:04:00.0 Off |                  N/A |
| 35%   58C    P2   144W / 250W |  10315MiB / 12288MiB |     73%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|    0     11660      C   ...\conda\envs\tensorflow18-gpu\python.exe N/A      |
|    1      1532    C+G   Insufficient Permissions                   N/A      |
|    1      5388    C+G   C:\Windows\explorer.exe                    N/A      |
|    1      6648    C+G   Insufficient Permissions                   N/A      |
|    1      7396    C+G   ...t_cw5n1h2txyewy\ShellExperienceHost.exe N/A      |
|    1      7688    C+G   ...dows.Cortana_cw5n1h2txyewy\SearchUI.exe N/A      |
|    1      9808      C   ...\conda\envs\tensorflow18-gpu\python.exe N/A      |
|    1     10820    C+G   Insufficient Permissions                   N/A      |
|    1     11232    C+G   ...x64__8wekyb3d8bbwe\Microsoft.Photos.exe N/A      |
+-----------------------------------------------------------------------------+

在这种情况下,python.exe 在 GPU 0 和 GPU 1 中运行。

有没有更直接的解决方案?谢谢

标签: keras

解决方案


你可以试试这个python包,GPUtil


推荐阅读