首页 > 解决方案 > 为什么 tensorflow 中稀疏运算的 GPU 内核这么少?

问题描述

在我的多 GPU tensorflow (1.13) 训练中,一些与稀疏相关的操作会消耗相当多的时间。在时间轴上,我发现这些稀疏操作只能在没有GPU内核支持的CPU上进行,导致内存拷贝频繁。

例如

在此处输入图像描述

如上图,SparseFillEmptyRows 和 SparseSegmentSum 占用了大部分的 CPU 时间,并造成大量的内存拷贝(DtoH && HtoD)。如果这两个操作可以转移到 GPU 上,我认为可以有很大的性能提升。

我想知道这背后的原因是什么。只是没有人在开发它吗?还是稀疏运算在 GPU 上的表现不佳?

标签: performancetensorflowgpu

解决方案


推荐阅读