opencl - SIMD Work Group、Block Size 对 FPGA 上内核执行时间的影响
问题描述
我在 FPGA 上使用不同的块大小和 SIMD 工作组配置对不同大小的 OpenCL 矩阵乘法示例进行了许多实验。结果表明,执行时间随着块大小的增加而减少,但与 SIMD 大小的关系并没有减少。
我想知道为什么块大小会影响并减少执行时间,而 SIMD 工作组对执行时间没有任何影响?
解决方案
推荐阅读
- symfony - Symfony 缓冲区内容到树枝模板
- python - 如何更改我的相机在opencv中读取的图像大小?机器学习模型显示错误
- sonos - 验证访问令牌的最佳方法?
- c++ - 子类按钮不会在每次重复点击时产生动画
- javascript - 为什么 insertRowsAfter() 在我的电子表格中不起作用?
- python - scikit-learn 随机森林永远不会完成训练,冻结
- php - 使 URL 查询对 php 可读
- android - Dagger Kotlin 限定符构造函数注入不起作用
- javascript - 在 react / redux 中传递多个道具和动作
- java - 单击 TextView 时我的应用程序崩溃