python - 了解模型 DEPTH 和 CUDA Out Of Memory 异常的依赖关系
问题描述
我一直在尝试分析为什么深度网络的某种训练会引发CUDA out of memory
异常。众所周知,当 GPU 由于内存溢出而无法应用某个操作时,就会出现此类错误。
一个简单而微不足道的原因是,如果有人试图在其上加载太大的数据。通常减少数据repr。暗淡和批量大小有帮助。第二个原因(很少提及)是应用过于复杂的操作时(通常在较大的度量上)。
现在给定一个令牌序列(馈入多层 Transformer),事实证明,只有在对其进行几次迭代之后,错误才会增加(每次迭代 GPU 内存都会线性扩展)。
我一直想知道为什么会这样。矩阵每次都是相同的形状,不再加载数据。可以将其视为多层 FNN。
解决方案
推荐阅读
- node.js - serveIndex 模块更改 UI
- xslt - 根据条件更改 XSLT 中的节点值
- odoo - 什么是无效的叶子[odoo中的错误?
- javascript - HTML一个没有href属性的标签,点击时会发生什么
- php - 如何在 Laravel 查询中使用 where 和 skip 在相同的条件下?
- node.js - 如何使用 Electron、NW.js 来“服务”可在本地网络上访问的 React 应用程序
- sql - 外键缺少括号
- python - 隐藏 Python 详细信息
- php - 使用 php sql 查询在 col 中搜索 Json 数组
- angular - iRoot 未定义,第二次启动应用程序