performance - 为什么 tensorflow 中稀疏运算的 GPU 内核这么少？

在我的多 GPU tensorflow (1.13) 训练中，一些与稀疏相关的操作会消耗相当多的时间。在时间轴上，我发现这些稀疏操作只能在没有GPU内核支持的CPU上进行，导致内存拷贝频繁。

例如

如上图，SparseFillEmptyRows 和 SparseSegmentSum 占用了大部分的 CPU 时间，并造成大量的内存拷贝（DtoH && HtoD）。如果这两个操作可以转移到 GPU 上，我认为可以有很大的性能提升。

我想知道这背后的原因是什么。只是没有人在开发它吗？还是稀疏运算在 GPU 上的表现不佳？

标签： performancetensorflowgpu