c++ - OpenGL 和 OpenCL 之间的内存模型比较以及大量数学计算的性能
问题描述
我正在阅读 OpenGL 和 OpenCL 规范,以便找到关于内存模型以及它们之间的精确对应关系的一些信息。
我知道 OpenGL 和 OpenCL 使用基本相同的内存模型。然而,我很难理解,因为命名不是一对一的映射(至少在我看来是这样),而究竟是什么可以映射到两者之间的(就术语而言)。
任何参考将不胜感激。
假设我们有相同的 GPU 作为 OpenCL 和 OpenGL 的设备,具体的问题/问题是/是:
- 例如 VBO 如何实际映射到 OpenCL?VBO 本质上是否对应于 OpenCL 术语中的一块全局内存?
- OpenGL 纹理对象呢?我的理解是,这完全对应于 OpenCL 中的图像对象,并且它们都映射到纹理内存。
- 共享存储缓冲区对象(特别是在计算着色器的上下文中)又对应什么?
此外,即使在这个站点上,我也很少讨论哪个性能更高(在 OpenCL 和 OpenGL 之间)。在我看来,例如,OpenGL Compute Shaders 应该优先于 OpenCL 内核,只有当问题的性质很好地映射到与图形相关的东西时,如果你有一些不一定与图形相关的大量数字(例如例如重模拟)。
我有点难以理解的是,鉴于内存模型和资源基本相同,为什么会出现这种情况。除了试验之外,我想知道证明差异的实际差异是什么。具体参考计算着色器,我知道它们允许实现任何你可以在 OpenCL 中使用 OpenGL 实现的算法,那么为什么会有性能差异呢?
我正在考虑的问题是基于 3 级 Blas 例程(例如 GEMM 或 GEMV)的一些相对较重的优化。
OpenGL 和 OpenCL 对这类问题的扩展性如何?
我问的原因是因为我很难找到可能回答这个问题的相对较新的信息和基准。
解决方案
例如 VBO 如何实际映射到 OpenCL
我对 OpenGL 的经验有限,但据我了解,许多 OpenGL 对象根本不映射到 OpenCL 对象。OpenGL 通常在更高的抽象层次上工作,它在后台为你做了很多事情。OpenCL 明显更简单,级别更低(这也可以解释为什么 OpenCL 有时可以更快)。有内存块(cl_mem),代码(cl_kernel),你启动与内存一起工作的内核 - 差不多就是这样。没有像 OpenGL 那样复杂的内部状态机。
具体参考计算着色器,我知道它们允许实现任何你可以在 OpenCL 中使用 OpenGL 实现的算法
实际上,我认为这可能是不正确的。OpenCL 允许您使用指针几乎可以在 C 中执行的所有操作(算术、重新解释转换等),而 GLSL 则受到更多限制(AFAIK)。
证明差异的实际差异是什么
一个巨大的区别(同样是 AFAIK)是内置的数学函数库(如 sin、cos 等)。OpenGL 也有它们,但在 OpenCL 中,它们通过标准保证了精度。这对科学应用程序产生了巨大的影响,OTOH 这意味着 OpenCL 内核可能会显着变慢(因为在整个输入范围内具有高精度的 sin() 实现比一些只为您提供合理精确值的蹩脚实现要多得多的代码一些非常有限的输入范围)。
推荐阅读
- git - 无法完全将分支拉到本地并替换它
- swift - 在 iPad 中呈现 UIActivityController 时应用程序崩溃
- python - MySQL 显示波斯字符的问题
- c# - Mysql中多个查询之间可以回滚事务,一个Update查询更新0行时回滚?
- c - 如何测试覆盖函数转换 char 数组到结构的所有分支使用 Google 测试 C 语言
- react-router - 如何在反应中将活动添加到引导导航栏?
- node.js - 为什么我的 req.signedCookies 显示未定义?
- flutter - LayoutBuilder:constrains.maxHeight 返回无穷大
- javascript - 在移动到下一次迭代之前暂停循环并等待事件
- java - 如何将php中的会话变量复制到java?