gpu - 如何在训练过程中检查 CUDA 内存不足问题的根本原因?
问题描述
我正在拥抱 roberta language_modeling.py
。完成 400 步后,我突然遇到 CUDA 内存不足的问题。不知道怎么处理。你能帮忙吗?谢谢
解决方案
这可能有多种原因。如果您仅在几次迭代后才获得它,则可能是您没有释放计算图。你用loss.backward(retain_graph=True)
的还是类似的?
此外,当您运行推理时,请务必使用
with torch.no_grad():
model.forward(...)
否则,计算图也会保存在那里,并且可能永远不会被释放,因为您从不调用backward()
它们。
推荐阅读
- php - 错误:运行 composer install 时“提取 zip 文件需要 ZipArchive”;与流行!_OS 21 宇宙
- flutter - 颤振通道主错误请在切换分支之前提交您的更改或存储它们
- php - 如何更改实体默认显示视图上的数据
- node.js - 如何在 Github 中指定操作/设置节点的路径
- javascript - 如何在 vue 中使用打字稿
- regex - 提取以字符串编码的长度字符串的正则表达式
- windows-subsystem-for-linux - 纱线工作区给出不同的结果
- google-chrome - 在浏览器中捕获\分析\调试预检请求
- javascript - 如何在 vue.js 的 .env 中使用 linux 变量?
- java - 如何解决运行时错误 E/libc:访问被拒绝在 Android Studio 中找到属性“vendor.perf.gestureflingboost.enable”?