cuda - 在没有实际张量核心的情况下,我如何能够运行张量核心指令?
问题描述
我正在使用 CUDA 的 WMMA API 在 GTX 1660 Ti 上增加片段。这个 GPU 没有张量核心,但是当我查看为我的代码生成的 SASS 时,我看到了 HMMA.1688.F32 指令,它们是张量核心指令!怎么会这样?
相关信息:
- NVIDIA 确认我的卡没有张量核心:https ://www.nvidia.com/en-eu/geforce/10-series/ (比较 GTX 10、GTX 16 和 RTX 20 系列的技术特性表)。
- HMMA.1688.F32 指令链接到张量核心单元:
解决方案
对于代码二进制兼容性,与张量核心单元相比,图灵家族的“非张量核心”成员在 SM中具有处理张量核心指令的硬件,尽管吞吐量相对较低。
推荐阅读
- terraform - Terraform:迭代和跳过特定的索引值
- android - Android NDK RegisterNatives 更完整的例子
- python - 没有为任何变量提供渐变:['generated_image:0']
- javascript - 为什么`this`返回对象,为什么?
- css - CSS 关键帧动画在 Safari 中不起作用(尝试过其他线程)
- javascript - 随机化颜色对 onclick (CSS, JavaScript)
- sql - 在 Oracle 中增加一天但丢失小时和分钟,格式也在发生变化
- linux - 如果 Input_file 中的列存在于查询文件中,则打印“YES”以及 file_name 中表中的列作为标题
- reactjs - 我们如何将一个组件的功能使用到另一个js文件中
- javascript - 如何使用javascript过滤对象数组中的对象数组?