首页 > 解决方案 > OpenGL 和 OpenCL 之间的内存模型比较以及大量数学计算的性能

问题描述

我正在阅读 OpenGL 和 OpenCL 规范,以便找到关于内存模型以及它们之间的精确对应关系的一些信息。

我知道 OpenGL 和 OpenCL 使用基本相同的内存模型。然而,我很难理解,因为命名不是一对一的映射(至少在我看来是这样),而究竟是什么可以映射到两者之间的(就术语而言)。

任何参考将不胜感激。

假设我们有相同的 GPU 作为 OpenCL 和 OpenGL 的设备,具体的问题/问题是/是:

  1. 例如 VBO 如何实际映射到 OpenCL?VBO 本质上是否对应于 OpenCL 术语中的一块全局内存?
  2. OpenGL 纹理对象呢?我的理解是,这完全对应于 OpenCL 中的图像对象,并且它们都映射到纹理内存。
  3. 共享存储缓冲区对象(特别是在计算着色器的上下文中)又对应什么?

此外,即使在这个站点上,我也很少讨论哪个性能更高(在 OpenCL 和 OpenGL 之间)。在我看来,例如,OpenGL Compute Shaders 应该优先于 OpenCL 内核,只有当问题的性质很好地映射到与图形相关的东西时,如果你有一些不一定与图形相关的大量数字(例如例如重模拟)。

我有点难以理解的是,鉴于内存模型和资源基本相同,为什么会出现这种情况。除了试验之外,我想知道证明差异的实际差异是什么。具体参考计算着色器,我知道它们允许实现任何你可以在 OpenCL 中使用 OpenGL 实现的算法,那么为什么会有性能差异呢?

我正在考虑的问题是基于 3 级 Blas 例程(例如 GEMM 或 GEMV)的一些相对较重的优化。

OpenGL 和 OpenCL 对这类问题的扩展性如何?

我问的原因是因为我很难找到可能回答这个问题的相对较新的信息和基准。

标签: c++openglopencl

解决方案


例如 VBO 如何实际映射到 OpenCL

我对 OpenGL 的经验有限,但据我了解,许多 OpenGL 对象根本不映射到 OpenCL 对象。OpenGL 通常在更高的抽象层次上工作,它在后台为你做了很多事情。OpenCL 明显更简单,级别更低(这也可以解释为什么 OpenCL 有时可以更快)。有内存块(cl_mem),代码(cl_kernel),你启动与内存一起工作的内核 - 差不多就是这样。没有像 OpenGL 那样复杂的内部状态机。

具体参考计算着色器,我知道它们允许实现任何你可以在 OpenCL 中使用 OpenGL 实现的算法

实际上,我认为这可能是不正确的。OpenCL 允许您使用指针几乎可以在 C 中执行的所有操作(算术、重新解释转换等),而 GLSL 则受到更多限制(AFAIK)。

证明差异的实际差异是什么

一个巨大的区别(同样是 AFAIK)是内置的数学函数库(如 sin、cos 等)。OpenGL 也有它们,但在 OpenCL 中,它们通过标准保证了精度。这对科学应用程序产生了巨大的影响,OTOH 这意味着 OpenCL 内核可能会显着变慢(因为在整个输入范围内具有高精度的 sin() 实现比一些只为您提供合理精确值的蹩脚实现要多得多的代码一些非常有限的输入范围)。


推荐阅读