nvidia - 如何获取使用张量核心的 CUDA 内核的完整列表?
问题描述
当我运行 cuBLAS 或 cuDNN 操作时,我如何知道其启动的内核是否使用 Tensor Cores?
我发现nvprof 和 tensor_precision_fu_utilization 指标提供了一种方法来实现这一点。但这需要运行 nvprof 并在此指标上一一检查内核。我还发现PyProf和Tensorflow profiler使用内核命名规则来判断内核是否使用 Tensor Cores。他们似乎手动尝试运行每个 cuBLAS 和 cuDNN 函数并使用 nvprof 来一一判断。但我担心他们需要更新即将推出的新 GPU 架构和 NVIDIA 库更新。
是否有使用张量核心的内核的官方完整列表?
解决方案
推荐阅读
- javascript - JS 无法在生产服务器上正确解析日期
- android - android 通知负载中的 FCM,event_time
- python - 关于查找字符串中出现的所有索引的基本问题
- python - Graphviz 不在 Colab 上打印输出图
- python - 递归以便在 Python 中找到集合之间的共性
- cmake - 使用 Cmake 安装 LLReve。未知的 BISON_TARGET 错误
- ruby-on-rails - ActiveAdmin 更改默认排序
- python - ipython notebook调试出现bug时,修正值后如何继续运行?
- javascript - 如何将添加的数据从 HTML 表保存到 SQL (PHPMYADMIN)
- java - 无法在 pom.xml 中执行目标 org.owasp:dependency-check-maven