performance - 为什么 tensorflow 中稀疏运算的 GPU 内核这么少?
问题描述
在我的多 GPU tensorflow (1.13) 训练中,一些与稀疏相关的操作会消耗相当多的时间。在时间轴上,我发现这些稀疏操作只能在没有GPU内核支持的CPU上进行,导致内存拷贝频繁。
例如
如上图,SparseFillEmptyRows 和 SparseSegmentSum 占用了大部分的 CPU 时间,并造成大量的内存拷贝(DtoH && HtoD)。如果这两个操作可以转移到 GPU 上,我认为可以有很大的性能提升。
我想知道这背后的原因是什么。只是没有人在开发它吗?还是稀疏运算在 GPU 上的表现不佳?
解决方案
推荐阅读
- python - 基础神经网络,权重太高
- amazon-web-services - AWS Certificate Manager 请求报告“续订资格”的证书不合格?
- c - 为什么在追加时添加 \n 字符可以打印出最后追加的行?
- go - 不能在赋值中使用电话(类型字符串)作为 int 类型
- android - 如何将动态editext值更新为android中的嵌套json数组?
- java - JAVA命令行:当我输入两个字长的命令时出现“找不到文件异常”?(当我输入一个单词命令时,它工作正常。)
- python - 任务未能取消序列化
- python - 如何计算不同数据框列中列表值的出现次数?
- linux - 如何获取文件的设备块号
- python - 如何修复导入自己的包的错误?